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人 类 社会 的 发 展 经 历 了 农耕 社会 .工业 社会 .信息 社会 ,现在 进入 智能 社会 。 在 这 漫长 
的 发 展 进程 中 ,人 类 不 断 从 学 习 中 积累 知识 ,为 人 类 文明 打下 了 坚实 的 基础 。 学 习 是 人 与 生 
俱 来 的 最 重要 的 一 项 能 力 ,是 人 类 智能 (human intelligence) 形 成 的 必要 条 件 。 从 20 世纪 90 
年 代 开 始 ,互联 网 从 根本 上 改变 了 人 们 的 生活 。 进 入 21 世纪 后 ,人 工 智 能 以 润 物 无 声 、 潜 移 
默 化 的 方式 深刻 地 改变 着 整个 世界 。 与 新 一 代 人 工 智 能 相关 的 学 科 发 展 和 技术 创新 正在 引 
发 链 式 突 破 ,推动 经 济 社会 各 领域 从 数字 化 、 网 络 化 向 智能 化 方向 加 速 跃升 。 发 展 智能 科学 
与 技术 已 经 提升 到 国家 战略 高 度 。 在 这 个 迅猛 发 展 的 学 科 中 ,机 器 学 习 是 发 展 最 快 的 分 支 
之 一 。 图 灵 奖 得 主 John E. Hopcroft 教授 认为 ,计算 机 科学 发 展 到 今天 ,机 器 学 习 是 核心 ， 
它 是 使 计算 机 具有 智能 的 根本 途径 。 机 器 学 习 的 理论 和 实践 涉及 概率 论 、 统 计 学 、. 通 近 论 、 
凸 分 析 、 最 优化 理论 .算法 复杂 度 理论 等 多 领域 的 交叉 学 科 。 除 了 有 其 自身 的 学 科 体系 外 ， 
机 器 学 习 还 有 两 个 重要 的 辆 射 功能 : 一 是 为 应 用 学 科 提供 解决 问题 的 方法 与 途径 ;二 是 为 
一 些 传统 学 科 ,如 统计 学 .理论 计算 机 科学 运筹 优化 等 ,找到 新 的 研究 问题 。 因 此 ,大 多 数 
世界 著名 大 学 的 计算 机 学 科 把 机 器 学 习 列 为 人 工 智能 的 核心 方向 。 

作为 一 门 应 用 学 科 , 机 器 学 习 的 应 用 涵盖 自然 语言 处 理 、 图 像 识 别 以 及 一 系列 预测 与 决 
策 问 题 。 特 别 是 其 中 的 深度 学 习 理论 更 是 诸多 高 精 尖 人 工 智能 技术 的 核心 , 它 是 AlphaGo 
计算 机 智能 围棋 博弈 系统 .无 人 驾驶 汽车 和 工业 界 人 工 智 能 助理 等 新 兴 技 术 的 灵魂 。 因 此 ， 
掌握 机 器 学 习 的 理论 与 实践 技术 是 学 习 现 代 人 工 智能 科学 最 重要 的 一 步 。 本 书 将 介绍 一 系 
列 经 典 的 机 器 学 习 算法 , 既 对 这 些 算法 进行 理论 分 析 , 也 结合 具体 应 用 介绍 它们 在 Python 
和 Tensorflow 中 的 实现 及 使 用 方法 。 本 书 的 第 1 章 首 先 简要 介绍 机 器 学 习 及 其 算法 ;第 
2 一 9 章 主要 介绍 监督 式 学 习 算法 。 其 中 包括 监督 式 学 习 算 法 基础 、 线 性 回归 算法 、 机 器 学 
习 中 的 搜索 算法 、Logistic 回归 算法 、 支 持 向 量 机 算法 .决策 树 、 神 经 网 络 和 深度 学 习 。 第 
10,11 章 着 重 介绍 无 监督 学 习 算法 ,其 中 包括 降 维 算法 和 聚 类 算法 。 第 12 章 讲述 强化 学 习 
的 相关 知识 。 除 前 两 章 外 ,各 章 内 容 均 相 对 独立 ,读者 可 以 根据 自己 的 兴趣 和 需要 选择 阅读 。 
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根据 课时 安排 情况 ,一 个 学 期 的 本 科 生 课程 可 以 讲授 除了 第 9 章 和 第 12 章 外 的 全 部 内 容 。 
研究 生 课程 则 可 以 讲授 全 部 内 容 。 

本 书 在 内 容 的 组 织 上 力求 从 理论 .抽象 和 设计 3 方面 阐述 机 器 学 习 理 论 基 础 、 算 法 实现 
和 具体 应 用 技巧 。 在 讲述 机 器 学 习 算 法 核心 知识 的 同时 ,着 力 培养 读者 的 计算 思维 能 力 。 
计算 思维 是 人 类 科学 思维 中 以 抽象 化 和 自动 化 为 特征 ,或 者 说 以 形式 化 .程序 化 和 机 械 化 为 
特征 的 思维 形式 。 读 者 通过 对 本 书 的 学 习 , 应 该 能 够 从 机 器 学 习 的 理论 基础 和 实际 应 用 两 
个 层面 全 面 掌握 其 核心 技术 ,同时 计算 思维 能 力 得 到 显著 提高 ,对 于 整个 课程 讲述 的 机 器 学 
习 算 法 核心 知识 能 够 做 到 知 其 然 且 知 其 所 以 然 。 在 面临 现实 世界 的 真实 挑战 时 ,能 够 以 算 
法 的 观点 思考 问题 ,应 用 数学 知识 设计 高 效 、 安 全 的 解决 方案 ,采用 抽象 和 分 解 方法 迎战 浩 
大 复杂 的 任务 或 设计 巨大 复杂 的 智能 系统 ,从 中 体会 计算 机 科学 和 人 工 智能 技术 带 来 的 快 
乐 和 力量 。 书 中 除 第 1 章 外 ,每 章 都 安排 了 与 讲授 内 容 密切 相关 的 习题 ,这 些 习题 分 为 两 
类 : 一 类 是 理论 分 析 题 ,其 目的 是 帮助 读者 巩固 复习 本 章 内 容 , 或 引导 读者 扩展 与 本 章 内 容 
相关 的 知识 ; 另 一 类 是 算法 实现 题 ,其 目的 是 培养 读者 的 算法 实践 能 力 , 通 过 这 类 习题 ,可 以 
检验 读者 对 本 章 主要 内 容 的 理解 程度 和 对 相关 算法 的 具体 应 用 能 力 。 

作者 由 于 感谢 汤药 、 田 俊 、 汤 秉 诚 、 罗 镜 等 专家 、 同 行 和 朋友 对 本 书 的 巨大 贡献 。 没 有 他 
们 一 如 既往 的 无 私 帮助 和 支持 ,本 书 是 不 可 能 完成 的 。 作 者 还 要 感谢 本 书 的 责任 编辑 张 瑞 
庆 编 审 ,以 及 清华 大 学 出 版 社 负责 本 书 编辑 出 版 工作 的 全 体 人 员 ,他们 为 本 书 的 出 版 付出 了 
大 量 辛 勤劳 动 , 他 们 以 认真 细致 ,一丝 不 苟 的 工作 保证 了 本 书 的 出 版 质量 。 本 书 的 全 部 章节 
由 王 硕 博 十 完成。 王晓东 教授 对 本 书 各 章节 的 文字 做 了 修改 和 润色 。 汤 龙 博 士 和 田 俊 教 授 
在 百 忙 中 认真 审阅 了 全 书 , 提 出 了 许多 宝贵 的 改进 意见 。 在 此 , 谨 向 每 一 位 关心 和 支持 本 书 
编写 工作 的 人 士 表 示 衷 心 的 谢意 。 

读者 可 从 GitHub 网 站 的 本 书页 面 https://github. com/wangleil8/machine learning 
下 载 本 书 的 源 代码 ,测试 数据 以 及 书 中 插图 和 源 代码 的 彩色 图 片 。 

作者 热忱 欢迎 同行 专家 和 读者 对 本 书 提出 宝贵 意见 ,使 本 书 内 容 在 使 用 过 程 中 不 断 改 
W, HREN. 
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2016 年 3 月 15 日 下 午 , 举 世 瞩 目的 围棋 人 机 大 战 在 围棋 世界 冠军 李 世 石 与 人 工 智 能 博 
弈 软件 AlphaGo 之 间 展 开 第 五 局 对 战 。 最 终 李 世 石 在 万 般 无 奈 之 下 投 子 认输 ,这 场 旷 世 围 
棋 人 机 大 战 以 AlphaGo 4 : 1 胜出 的 结局 落下 了 帷幕 。 此 后 , AlphaGo 及 其 后 继 者 
AlphaZero 一 路 高 歌 猛 进 ,所向披靡 ,横扫 世界 围棋 职业 棋 坛 ,一 次 又 一 次 向 人 类 展示 出 其 
超 强 的 人 工 智能 智力 ,而 它 的 灵魂 正 是 本 书 所 关注 的 核心 内 容 一 一 机 器 学 习 算法 。 

从 20 世纪 90 年 代 开 始 ,互联 网 改变 了 人 们 的 生活 。 人 谷歌. 亚马逊 等 互联 网 公司 为 信息 
全 球 化 做 出 了 重大 的 贡献 。 进 入 21 世纪 后 ,苹果 智能 手机 iPhone 的 出 现 再 一 次 带 来 了 技 
术 的 革新 。 诸 多 App 层出不穷 ,为 人 们 的 衣食 住 行 带 来 了 巨大 的 便利 。 下 一 轮 创 新 的 浪潮 
将 来 自 何方 ? 许多 学 者 、 工 程 师 与 企业 家 认为 ,人 工 智能 将 引领 未 来 的 潮流 。 

人 工 智能 的 概念 是 由 以 麦 卡 赛 . 明 斯 基 、 罗 切 斯 特 和 香农 等 为 首 的 一 批 科学 家 在 1956 
年 提出 的 。 为 什么 一 个 已 有 60 余年 历史 的 学 科 又 重新 走 进 了 人 们 视野 的 中 心 ? 回顾 历史 ， 
每 一 次 潮流 的 兴起 都 伴随 着 科技 的 创新 。 例 如 ,互联 网 的 兴起 源 于 高 速 光缆 的 问世 ,手机 
App 的 繁荣 源 于 智能 手机 的 诞生 。 那 么 ,又 是 什么 新 兴 的 技术 突破 为 人 工 智 能 领域 注 和 人 了 
新 鲜 的 活力 ? 可 以 说 ,人 工 智能 的 核心 是 机 器 学 习 , 而 机 器 学 习 的 核心 是 算法 。 近 年 来 ,机 
器 学 习 算 法 的 研究 屡屡 取得 重大 成 功 ,特别 是 深度 学 习 算 法 ,更 是 一 次 次 地 展示 出 无 与 伦比 
的 威力 。 同 样 重要 的 是 .GPU( 图 像 处 理 器 ) 的 高 速 发 展 , 使 得 大 规模 深度 学 习 成 为 可 能 。 所 
以 , 正 是 机 器 学 习 算 法 理论 及 相应 硬件 技术 的 突破 使 人 工 智能 焕发 新 生 。 

谈 到 人 工 智能 与 机 器 学 习 , 人 们 眼前 会 立刻 浮现 出 诸多 异彩 纷呈 的 场景 。 在 这 些 场景 
中 ,有 无 人 驾驶 汽车 穿行 于 车 水 马龙 ,有 智能 机 器 人 探索 宇宙 太空 ,有 面部 识别 系统 精确 定 
位 寻 踪 于 茫茫 人 海 ,还 有 AlphaGo 智能 博弈 软件 与 人 类 围棋 世界 冠军 激战 ,如 图 1. 1 所 示 。 

所 有 这 些 场 景 都 源 于 机 器 学 习 带 来 的 新 一 轮 技术 创新 浪潮 。 十 几 年 前 ,这 些 场景 也 许 
只 出 现在 科幻 影视 作品 中 ,而 今天 ,人 工 智能 的 创新 将 它们 变 成 了 现实 ,并 且 彻 底 地 改变 了 
人 们 的 生活 。 那 么 ,是 什么 样 的 技术 支持 着 这 些 精 彩 纷呈 的 应 用 ? 机 器 如 何 通 过 学 习 获 取 智 
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能 ? 人 类 在 机 器 学 习 的 过 程 中 扮演 了 什么 样 的 角色 ? 机 器 学 习 算法 与 传统 的 计算 机 算法 有 
什么 区 别 与 联系 ? 相信 读者 一 定 会 有 许多 这 样 的 问题 ,这 些 也 正 是 本 书 要 一 一 回答 的 问题 。 
本 章 将 对 机 器 学 习 领 域 加 以 概述 ,使 读者 对 这 一 领域 有 一 个 全 局 性 的 认识 。 在 后 续 的 章节 
中 ,本 书 还 将 从 理论 与 实践 两 个 方面 对 机 器 学 习 及 其 算法 理论 进行 深入 的 探讨 。 


-a 


图 1.1 机 器 学 习 场景 


1.1 什么 是 机 器 学 习 


什么 是 机 器 学 习 ? 通俗 地 讲 , 机 器 学 习 是 智能 体 通 过 模拟 或 实现 人 类 的 学 习 行为 来 获 
取 新 的 知识 或 技能 ,重新 组 织 已 有 的 知识 结构 ,以 不 断 改 善 自 身 智 能 。 机 器 学 习 大 师 Tom 
Mitchell 从 技术 层面 给 出 了 一 个 在 业界 广 为 引 用 的 抽象 定义 了 给 定 任 务 T. 相关 的 经 验 E 
以 及 关于 学 习 效 果 的 度量 P, 机 器 学 习 就 是 通过 对 经 验 E 的 学 习 来 优化 任务 工 完成 效果 的 
ERP 的 一 个 过 程 。 

以 下 通过 两 个 例子 来 具体 阐述 这 个 概念 。 在 一 个 无 人 驾驶 汽车 系统 中 ,机 器 学 习 的 任 
务 是 根据 路 况 确定 驾驶 方式 。 例 如 , 遇 到 红 灯 应 当 和 刹车 , 遇 到 行人 应 当 避 让 ,等 等 。 学 习 效 
果 的 度量 可 以 是 事故 发 生 的 概率 。 经 验 就 是 大 量 的 人 类 驾驶 数据 。 一 般 来 说 ,训练 一 个 无 
人 驾驶 汽车 系统 需要 上 百 万 公里 且 包 含 各 种 路 况 的 人 类 驾驶 数据 。 从 这 些 数据 中 ,机 器 学 
习 算 法 能 提取 出 在 各 种 路 况 下 人 类 的 正确 驾驶 方式 。 然 后 ,在 无 人 驾驶 的 情况 下 ,根据 学 习 
到 的 相应 驾驶 方式 来 操纵 汽车 。 例 如 ,如 果 路 口 亮 起 红 灯 , 人 类 驾驶 员 就 会 刹车 。 机 器 学 习 
算法 提取 出 这 一 模式 ,从 而 能 在 传感器 识别 出 红 灯 时 发 出 刹车 的 指令 。 

再 来 看 博弈 系统 的 例子 。 在 这 个 系统 里 机 器 学 习 的 任务 是 根据 对 手 的 招数 给 出 应 招 。 
其 学 习 效 果 可 以 用 软件 的 胜率 来 度量 。 学 习 的 经 验 来 自 两 个 方面 。 首 先是 人 类 棋 手 的 历史 
对 局 ,也 就 是 棋谱 数据 。 从 成 千 上 万 的 棋谱 数据 中 ,机 器 学 习 算法 提取 出 在 以 往 类 似 盘面 中 


O 原文 如 下 : A computer program is said to learn from experience E with respect to some class of tasks T and 


performance measure P, if its performance at tasks in T, as measured by P, improves with experience E. 


5 


第 1 章 


| 机 器 学 习 算 法 概述 


胜率 最 高 的 应 招 ,并 结合 自身 的 计算 做 出 反应 。 其 次 ,博弈 系统 也 通过 自身 的 实战 对 局 来 进 
行 强 化 学 习 。 例 如 ,在 某 场 对 局 中 ,如 果 人 类 战胜 了 软件 ,那么 机 器 学 习 算 法 将 把 这 场 对 局 
以 较 高 权重 加 入 其 数据 库 中 ,从 而 避免 在 未 来 的 对 局 中 出 现 类 似 的 错误 。 

从 上 面 的 两 个 例子 可 以 看 出 ,机 器 学 习 的 原理 与 人 类 学 习 十 分 相似 : 对 已 知 的 经 验 信 
息 加 以 提炼 ,以 掌握 完成 某 项 任务 的 方法 。 在 机 器 学 习 中 , 用 于 学 习 的 经 验 数据 称 为 训练 
数据 ,完成 任务 的 方法 称 为 模型 。 机 器 学 习 的 核心 就 是 针对 给 定 任务 ,设计 出 以 训练 数据 为 
其 输入 ,以 模型 为 其 输出 的 算法 ( 见 图 1. 2)。 所 以 ,有 时 人 们 也 说 ,机 器 学 习 算法 的 职责 是 通 
过 训练 数据 来 训练 模型 。 


图 1.2 机 器 学 习 算法 工作 原理 


那么 机 器 学 习 与 人 类 学 习 的 区 别 何在 ? 换 句 话说 ,机 器 学 习 算 法 能 完成 哪些 人 类 难以 
完成 的 任务 ? 简单 来 说 有 以 下 两 点 。 

第 一 ,机 器 学 习 算法 可 以 从 海量 数据 中 提取 与 任务 相关 的 重要 特征 。 例 如 ,在 虹膜 识别 
技术 中 ,机 器 学 习 算 法 能 从 众多 医学 数据 以 及 生物 特征 中 选取 细 丝 .冠状 条纹、 隐 窝 等 细节 
特征 ,来 区 别 任意 两 个 不 同 的 虹膜 。 而 这 样 的 任务 往往 令 人 类 望而却步 。 

第 二 ,机 器 学 习 算 法 可 以 自动 地 对 模型 进行 调整 ,以 适应 不 断 变 化 的 环境 。 例 如 ,在 房 
价 预测 系统 中 ,机 器 学 习 算 法 能 自动 根据 类 似 的 小 区 的 最 新 交易 记录 ,对 某 小 区 的 房价 预测 
做 出 迅速 调整 。 这 样 的 反应 速度 往往 非 人 力所能及 。 

然而 ,机 器 学 习 也 并 非 无 所 不 能 。 机 器 学 习 面 临 的 第 一 个 问题 是 : 机 器 学 习 算法 需要 
大 量 的 训练 数据 来 训练 模型 。 在 数据 不 足 的 情况 下 ,机 器 学 习 算 法 往往 会 面临 两 个 挑战 。 
第 一 ,训练 数据 的 代表 性 不 够 好 。 这 使 得 模型 在 面 对 完 全 陌生 的 任务 场景 时 会 “不 知 所 措 ”。 
例如 ,如 果 在 无 人 驾驶 汽车 算法 的 训练 数据 中 没有 包含 雪 天 的 行驶 记录 ,那么 经 训练 所 得 到 
的 模型 很 可 能 无 法 在 雪 天 给 出 正确 的 驾驶 指令 。 第 二 ,训练 数据 的 一 些 特殊 的 特征 可 能 将 
模型 带 入 过 度 拟 合 的 误区 。 过 度 拟 合 就 是 指 算法 过 度 解读 训练 数据 ,从 而 失去 了 模型 的 可 
推广 性 。 在 无 人 驾驶 汽车 的 例子 中 ,如 果 训 练 数据 不 足 ,例如 只 有 两 条 数据 : 遇 到 红 灯 停 
车 , 遇 到 红色 “停止 "标志 停车 ,在 这 种 情况 下 ,机 器 学 习 算 法 可 能 会 从 仅 有 的 这 两 条 数据 中 
提炼 出 如 下 模型 : 前 方 出 现 红 色 物 体 则 停车 ,这 就 是 过 度 拟 合 。 如 何 通 过 算法 设计 的 技巧 
来 克服 上 述 困难 ,是 本 书后 续 章 节 中 要 探讨 的 重要 内 容 。 

机 器 学 习 面 临 的 第 二 个 问题 是 : 目前 它 还 没有 在 创造 性 的 工作 领域 中 取得 成 效 。 例 
如 ,艺术 创作 还 主要 依赖 于 人 类 的 情感 与 思维 ,许多 构造 性 的 数学 证 明 还 无 法 由 机 器 学 习 来 
完成 ,许多 猜想 性 质 的 科学 研究 也 仍然 需要 科学 家 的 灵感 与 智慧 。 

最 后 需要 指出 的 是 ,机 器 的 智能 终究 是 人 类 赋予 的 。 机 器 学 习 的 灵魂 是 算法 ,而 算法 的 
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设计 者 是 人 类 。 正 因 如 此 ,掌握 机 器 学 习 的 算法 设计 艺术 是 打开 未 来 之 门 的 钥匙 。 这 也 正 
是 本 书 希 望 读者 实现 的 目标 。 


1.2 机 器 学 习 的 形式 分 类 


通过 1. 1 节 中 介绍 的 例子 可 以 看 到 ,机 器 学 习 问 题 种 类 繁多 。 本 节 要 介绍 一 种 常用 的 
机 器 学 习 的 学 习 形 式 的 分 类 方法 。 机 器 学 习 最 主要 的 两 种 形式 是 监督 式 学 习 与 无 监督 学 
习 。 除 此 之 外 ,还 有 一 个 介 于 两 者 之 间 的 形式 一 强化 学 习 


1.2.1 监督 式 学 习 


监督 式 学 习 是 最 常见 的 一 类 机 器 学 习 的 学 习 形式 。 在 这 一 类 机 器 学 习 的 学 习 形 式 中 ， 
每 一 条 训练 数据 都 含有 两 部 分 信息 : 特征 组 与 标签 。 一 条 训练 数据 中 的 特征 组 是 对 相应 对 
象 的 特征 的 描述 ,而 标签 则 是 对 象 的 一 个 属性 。 监督 式 学 习 的 任务 是 根据 对 象 的 特征 组 对 
标签 的 取 值 进行 预测 。 


手写 数字 识别 是 一 个 经 典 的 监督 式 学 习 问 题 。 这 个 问题 的 任务 是 识别 各 式 各 样 的 手写 
数字 。 图 1. 3 是 20 张 手写 数字 图 片 。 
标签 =5 标签 =0 标签 =4 标签 =9 


图 1.3 20 张 手写 数字 图 片 


图 1.3 中 的 20 张 图 片 就 是 关于 这 个 任务 的 20 条 训练 数据 。 每 一 条 训练 数据 都 由 特征 
EE 特征 组 是 图 片 的 像素 灰 度 矩阵 ,标签 是 图 片 中 的 数字 。 
在 监督 式 学 习 中 ,通常 有 两 种 获取 标签 值 的 方法 。 
第 一 种 方法 是 人 工 标注 。 例 如 ,在 许多 电影 推荐 系统 中 ,一 些 用 户 在 观 影 之 后 会 给 电影 
打分 。 如 果 该 系统 希望 通过 机 器 学 习 来 更 好 地 为 用 户 推荐 其 他 电影 ,这 样 的 分 数 就 可 以 作 
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为 训练 数据 的 标签 。 除 此 之 外 ,有 些 公司 提供 专业 人 工 标注 服务 。 如 果 某 项 任务 需要 持续 
稳定 的 人 工 标签 ,那么 可 以 利用 这 些 公司 的 资源 。 
第 二 种 方法 是 数据 自 带 标签 。 例 如 ,点击 率 预测 是 搜索 引擎 技术 中 至 关 重 要 的 一 个 问 
它 直接 关系 到 搜索 结果 的 优 劣 。 众 所 周知 ,搜索 引擎 的 主要 任务 是 返回 与 用 户 搜索 关 
键 字 相 关联 的 链接 。 图 1. 4 是 谷歌 搜索 引擎 对 "人工 智能 "这 一 搜索 关键 字 返 回 的 链接 。 
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图 1.4 谷歌 搜索 引擎 对 “人工 智 能 ”返回 的 链接 


显而易见 , 越 有 可 能 被 用 户 点 击 的 链接 ,应 当 被 排 在 越 高 的 位 置 。 所 以 ,机 器 学 习 在 这 
里 的 任务 就 是 预测 每 一 个 备 选 的 链接 被 当前 用 户 点 击 的 概率 。 在 任 一 时 刻 , 每 一 次 搜索 都 
会 返回 给 用 户 一 系列 的 链接 。 其 中 的 某 些 链 接 被 点 击 了 ,但 仍 会 有 一 些 链 接 没 有 被 用 户 点 
击 , 这 些 信息 都 会 被 完整 无 误 地 记录 在 搜索 引擎 的 日 志 中 。 每 一 条 日 志 一 般 都 包含 以 下 信 
息 : 搜索 发 起 人 ,关键 字 、 搜 索引 擎 返回 的 一 条 链接 以 及 用 户 是 否 点 击 了 该 链接 。 这 些 日 志 
数据 构成 了 点 击 率 预 测 问题 的 训练 数据 。 日 志 中 的 各 类 信息 构成 特征 组 ,标签 值 则 是 0 或 
者 1: 如 果 一 个 链接 被 点 击 了 ,其 标签 值 是 1; 否 则 ,其 标签 值 就 是 0。 由 此 可 见 , 这 个 例子 里 
的 训练 数据 具有 自 带 标签 ,而 不 需要 额外 的 人 工 标注 。 

根据 训练 数据 所 带 标 签 值 的 特性 ,又 可 以 将 监督 式 学 习 分 为 两 类 。 


1. 分 类 问题 

如 果 标 签 只 取 有 限 个 可 能 值 , 则 称 相应 的 监督 式 学 习 为 分 类 问题 。 直 观 地 说 ,每 一 个 标 
签 值 代表 一 个 类 。 在 手写 数字 识别 问题 中 ,标签 只 取 0 一 9 这 10 个 可 能 值 , 这 是 含有 10 个 
类 别 的 分 类 问题 。 在 点 击 率 预测 问题 中 ,标签 只 取 0 和 1 两 个 可 能 值 ,这 是 含有 两 个 类 别 的 
分 类 问题 。 称 一 个 含有 A 个 类 别 的 分 类 问题 为 A 元 分 类 问题 。 

分 类 问题 的 任务 又 可 以 分 为 两 种 形式 。 第 一 种 任务 的 形式 是 ,要 求 对 类 别 做 出 明确 的 
预测 。 例 如 ,在 手写 数字 识别 问题 中 ,要 求 输出 对 给 定 图 片 中 的 数字 的 预测 。 这 种 任务 形式 
就 称 为 类 别 预测 任务 。 第 二 种 任务 的 形式 是 ,要 求 计算 出 给 定 对 象 属于 每 一 个 类 别 的 概率 。 
例如 ,在 点 击 率 预测 问题 中 ,要 求 输出 用 户 点 击 给 定 链接 的 概率 。 这 种 任务 形式 就 称 为 概率 
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预测 任务 。 概 率 预测 任务 比 类 别 预测 任务 要 求 更 高 ,这 是 因为 ,一 旦 计算 出 了 对 象 属于 每 一 
类 别 的 概率 ,就 可 以 将 具有 最 大 概率 的 那个 类 别 作为 该 对 象 的 类 别 预测 。 


2. 回归 问题 

如 果 标 签 是 取 值 于 某 个 区 间 的 实数 , 则 称 相应 的 监督 式 学 习 为 回归 问题 。 在 回归 问题 
中 ,标签 通常 为 连续 的 数量 值 ,从 而 其 取 值 有 无 限 种 可 能 。 房 价 预测 是 一 个 经 典 的 回归 问 
题 , 如 图 1.5 所 示 。 


E x se XK Xx 
2 x X 
x x 
Bu x 
0 
0 5 10 15 20 25 
H010) | 


图 1.5 房价 预测 问题 


在 房价 预测 问题 中 ,每 一 条 训练 数据 都 是 某 地 区 的 一 笔 房 屋 交 易 记 录 。 训 练 数据 中 含 
有 诸如 房屋 面积 ,学 区 .与 地 铁 站 距离 等 特征 ,并 且 含有 交易 价格 作为 其 标签 值 。 由 于 交易 
价格 是 一 个 连续 的 数量 值 ,因此 ,房价 预测 问题 是 一 个 回归 问题 。 

显然 ,在 房价 预测 问题 中 , 既 无 可 能 也 无 必要 完全 精确 地 预测 出 给 定 房屋 的 价格 ,而 只 
要 预测 出 的 房屋 价格 能 接近 其 真实 价格 即 可 。 这 恰 是 一 般 回归 问题 的 目标 : 输出 接近 真实 
标签 的 预测 。 实 际 上 ,如 果 一 个 回归 问题 的 模型 在 训练 数据 上 的 预测 过 于 准确 ,那么 出 现 过 
度 拟 合 的 可 能 性 就 很 大 。 

在 图 1.6 中 ,XX 表示 训练 数据 标签 值 .曲线 表示 预测 标签 值 。 图 1. 6(a) 中 的 预测 标签 与 
训练 数据 的 标签 精确 吻合 。 但 是 ,可 以 想象 这 个 预测 函数 的 可 推广 性 较 差 , 因 为 它 属于 过 度 
WMA. mE 1. 6(b) 中 的 预测 函数 在 训练 数据 上 虽然 有 一 定 的 标签 预测 误差 ,但 是 它 的 可 推 
广 性 较 强 。 

最 后 应 当 指 出 ,分 类 问题 与 回归 问题 是 可 以 相互 转化 的 。 对 于 一 个 分 类 问题 ,可 以 将 其 
转化 为 对 给 定 对 象 所 属 类 别 的 概率 的 预测 。 而 概率 是 在 [0.1] 内 的 连续 值 , 因 此 概率 预测 可 
以 认为 是 一 个 回归 问题 。 第 5 章 介绍 的 Logistic 回归 就 是 一 种 利用 回归 方法 求解 分 类 问题 
的 算法 。 而 对 于 一 个 回归 问题 ,可 以 通过 标签 值 的 区 间 化 将 其 转化 为 一 个 分 类 标签 。 例 如 ， 
根据 用 户 的 特征 预测 用 户 的 年 龄 时 ,可 以 将 年 龄 分 段 : 0 一 18 岁 为 未 成 年 段 ,19 一 45 岁 为 青 
年 段 ,46 一 65 岁 为 中 年 段 ,66 岁 及 以 上 为 老年 段 。 由 此 .可 以 将 年 龄 表示 为 取 4 个 值 的 分 类 
标签 ,其 中 每 个 值 表示 一 个 年 龄 段 ,因而 可 以 应 用 分 类 问题 的 算法 来 预测 用 户 所 处 年 龄 段 ， 
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图 1.6 过度 拟 合 与 适度 拟 合 
从 而 得 到 一 个 近似 的 年 龄 预测 。 
1.2.2 无 监督 学 习 


在 无 监督 学 习 的 形式 下 ,训练 数据 不 含 标 签 。 无 监督 学 习 问题 的 任务 通常 是 对 数据 本 
身 的 模式 识别 与 分 类 。 例 如 ,在 手写 数字 识别 问题 中 ,忽略 训练 数据 的 标签 , 仅 根据 特征 组 
将 训练 数据 分 类 ,这 就 是 一 个 无 监督 学 习 问 题 。 此 时 ,机 器 学 习 算 法 也 许 仍然 能 把 数据 分 为 
10 类 , 且 每 一 类 中 的 图 片 都 是 相同 的 手写 数字 ;但 是 , 它 无 法 输出 各 类 图 片 中 的 具体 数字 ， 
因为 训练 数据 中 并 不 包含 此 信息 。 

在 众多 无 监督 学 习 问 题 中 ,主要 有 两 类 问题 具有 广泛 的 实际 应 用 : 降 维 问题 与 聚 类 
问题 。 


1. 降 维 问题 

在 机 器 学 习 问 题 中 ,每 一 条 训练 数据 的 特征 组 都 可 以 用 一 个 向 量 来 表示 。 此 向 量 的 每 
一 分 量 都 对 应 对 象 的 一 个 特征 。 在 许多 应 用 中 ,特征 组 的 维度 相当 高 ,有 时 甚至 达到 以 百 万 
为 数量 级 。 在 预测 标签 时 ,特征 并 非 越 多 越 好 。 众 多 的 特征 不 仅 增加 了 求解 问题 的 复杂 性 
和 难度 ,而 且 在 特征 之 间 容 易 发 生 互相 不 独立 的 现象 ,这 会 给 问题 的 求解 带 来 麻烦 。 
对 高 维度 的 特征 组 进行 低 维 近似 , 即 用 维度 较 低 的 向 量 来 
表示 原始 的 高 维特 征 ,是 降 维 问题 的 主要 应 用 。 

除 此 之 外 ,人 们 对 二 维和 三 维 空间 能 有 较 直 观 的 理解 。 
所 以 , 降 维 问题 的 另 一 个 应 用 就 是 数据 可 视 化 。 将 高 维 数 
据 降 到 二 维 或 三 维 , 可 以 使 人 们 对 数据 有 直观 的 认识 。 例 
如 ,谷歌 发 布 了 开源 的 可 视 化 工具 Embedding Projector. tZ 
的 一 个 手写 数字 识别 训练 数据 集 MNIST 的 可 视 化 结果 如 
图 1.7 所 示 。 

MNIST 是 手写 数字 识别 训练 数据 集 。 其 中 的 每 一 条 图 1.7 手写 数字 识别 训练 数据 
训练 数据 的 特征 组 是 图 片 的 28 x 28 的 像素 灰 度 矩 阵 , 表 示 集 MNIST 的 可 视 化 结果 
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为 一 个 28x28 = 784 f [8] fit, Embedding Projector 将 784 维 向 量 降 为 二 维 , 从 而 可 以 清楚 
地 在 平面 图 上 展示 这 些 训练 数据 。 从 图 1.7 中 可 以 看 到 ,Embedding Projector 的 降 维 功能 
保持 了 数据 的 基本 特征 , 它 将 具有 同样 数字 的 图 片 成 功 地 聚 在 一 起 。 在 降 维 的 同时 , 尽 可 能 
多 地 保留 数据 的 主要 结构 及 其 携带 的 信息 是 对 算法 的 一 个 重大 的 挑战 。 


2. 聚 类 问题 

聚 类 问题 与 监督 式 学 习 中 的 分 类 问题 类 似 , 目 的 都 是 将 数据 按 模 式 归 类 。 二 者 的 区 别 
是 : 聚 类 问题 中 的 任务 仅 限 于 对 未 知 分 类 的 一 批 数 据 进行 分 类 ;而 监督 式 学 习 中 的 分 类 问 
题 是 用 已 知 分 类 的 训练 数据 训练 出 一 个 能 够 预测 数据 类 别 的 模型 。 

异常 探测 是 一 个 经 典 的 聚 类 问题 。 例 如 ,图 1. 8 是 某 银行 信用 卡 消费 记录 数据 。 在 
图 1. 8 中 , 聚 类 算法 把 交易 数据 点 聚 成 两 类 。 显 而 易 见 ,包含 点 数 较 少 的 类 为 异常 交易 类 ， 
它 可 能 来 自信 用 卡 被 盗用 的 交易 。 这 个 例子 只 用 了 两 个 特征 ,就 是 用 户 的 历史 周 消费 额度 
以 及 本 周 消费 人 额度。 事实 上 ,一 个 复杂 的 信用 卡 异 常 探测 系统 必然 会 有 成 百 上 千 个 不 同 的 
特征 ,很 难 一 目 了 然 地 发 现 异常 ,因而 必须 应 用 聚 类 算法 。 


本 周 消费 额度 /元 
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图 1.8 信用卡 异常 探测 系统 的 聚 类 结果 


还 有 一 个 容易 理解 的 聚 类 问题 的 例子 。 在 一 个 新 闻 门 户 网 站 中 ,每 天 有 来 自 多 个 消息 
频道 的 各 种 文章 与 信息 。 如 果 和 希望 为 用 户 个 性 化 地 推送 新 闻 ,就 需要 了 解 每 一 个 用 户 对 哪 
一 类 文章 感 兴趣 。 一 个 可 行 的 算法 是 将 新 闻 类 的 文章 聚 类 。 然 后 ,根据 用 户 的 历史 浏览 记 
录 ,推断 该 用 户 感 兴趣 的 文章 类 别 , 从 而 为 其 推送 该 类 别 的 文章 。 值 得 一 提 的 是 ,有 时 也 可 
以 随机 地 选取 一 些 用 户 从 未 浏览 过 的 类 别 ,进行 尝试 性 推送 ,从 而 更 好 地 了 解 用 户 的 兴趣 
类 别 。 


1.2.3 强化 学 习 
强化 学 习 是 现代 人 工 智 能 的 重要 课题 。 在 博弈 策略 ,无 人 驾驶 汽车 系统 、 机 器 人 控制 等 
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诸多 前 沿 人 工 智能 领域 中 都 能 见 到 强化 学 习 的 身影 。 

强化 学 习 的 任务 是 : 根据 对 环境 的 探索 ,制定 应 对 环境 变化 的 策略 。 它 模拟 了 生物 探 
索 环境 与 积累 经 验 的 过 程 。 例 如 ,在 训练 海豚 进行 杂技 表演 的 过 程 中 ,海豚 每 次 成 功 地 完成 
一 组 技术 动作 后 ,都 会 获得 食物 奖励 ;而 错误 的 动作 则 不 会 获得 奖励 。 这 样 的 经 验 与 记忆 引 
导 海 豚 做 出 一 个 个 精彩 的 杂技 动作 。 这 正 是 强化 学 习 的 思想 。 强 化 学 习 算法 通过 对 正确 的 
行动 进行 奖励 ,来 摸索 应 对 环境 变化 的 最 优 策略 。 例 如 在 博弈 系统 中 ,计算 机 控制 的 虚拟 棋 
手 每 走出 一 步 好 棋 ,就 会 获得 一 定 的 奖励 。 而 当 虚 拟 棋 手 走 错 一 步 棋 ,导致 局 面 落 后 时 , 它 
会 受到 惩罚 ,以 避免 其 将 来 再 犯 类 似 的 错误 。 又 如 ,在 虚拟 环境 中 训练 无 人 驾驶 汽车 系统 模 
型 时 ,如 果 模 型 所 控制 的 无 人 驾驶 汽车 在 虚拟 环境 中 发 生 了 事故 , 则 相应 的 操作 将 受到 惩 
罚 , 这 种 惩罚 将 引导 系统 掌握 正确 的 驾驶 方法 。 

强化 学 习 是 介 于 监督 式 学 习 和 无 监督 学 习 之 间 的 一 类 机 器 学 习 算 法 。 一 方面 ,强化 学 
习 没 有 一 组 带 有 标签 的 训练 数据 作为 其 输入 ,算法 需要 自发 地 探索 环境 来 获得 训练 数据 ;而 
另 一 方面 ,由 于 环境 对 每 个 行动 能 够 提供 反馈 ,所 以 可 以 认为 ,通过 探索 得 到 的 训练 数据 是 
带 有 标签 的 。 


1.3 机 器 学 习 算 法 综 览 


1.2 节 介 绍 了 各 式 各 样 的 机 器 学 习 问 题 。 下 一 步 要 关注 的 是 解决 这 些 问题 的 算法 。 不 
同 特性 的 问题 需要 用 不 同 的 算法 来 解决 。 本 书 的 目的 就 是 系统 地 对 机 器 学 习 算法 的 理论 与 
实践 做 深入 的 介绍 。 在 本 节 中 ,将 对 本 书 中 要 讲述 的 诸多 机 器 学 习 算 法 做 综合 介绍 。 本 书 
的 第 2 一 9 章 主要 介绍 监督 式 学 习 算 法 ,第 10、11 章 着 重 介 绍 无 监督 学 习 算法 ,第 12 章 简要 
介绍 强化 学 习 的 相关 知识 。 以 下 对 本 书 第 2 一 12 章 的 内 容 做 提纲 大 领 的 介绍 。 


1. 82—9 8. 关于 监督 式 学 习 

第 2 章 介绍 监督 式 学 习 的 基本 概念 。 其 中 包括 特征 ,标签 .模型 .损失 函数 等 重要 概念 
的 精确 定义 。 除 此 之 外 ,第 2 章 将 介绍 监督 式 学 习 的 一 般 性 算法 架构 一 一 经 验 损失 最 小 化 。 
本 书 中 的 所 有 监督 式 学 习 算法 都 是 该 架构 在 具体 问题 中 的 体现 。 过 度 拟 合 是 经 验 损失 最 小 
化 算法 可 能 遇 到 的 问题 ,因此 ,第 2 章 还 将 介绍 正则 化 算法 。 正 则 化 算法 是 降低 过 度 拟 合 概 
率 的 重要 手段 之 一 。 

第 3 章 讲述 线性 回归 算法 。 线 性 回归 算法 是 求解 回归 问题 的 一 个 经 典 的 算法 。 如 果 观 
察 到 训练 数据 标签 值 与 特征 值 之 间 呈 近似 线性 的 关系 ,线性 回归 算法 就 是 一 个 合适 的 算法 
(图 1.9)。 线 性 回归 算法 根据 正规 方程 计算 出 一 条 均 方 误差 最 小 的 直线 来 拟 合 训练 数据 。 
均 方 误差 是 全 体 训练 数据 到 该 直线 的 纵向 距离 平方 的 平均 值 。 为 什么 选用 这 样 的 方法 来 拟 
f? 正规 方程 的 原理 又 是 什么 ? 在 第 3 章 中 将 对 这 些 问题 做 详细 阐述 。 

线性 回归 算法 的 正规 方程 运用 了 均 方 误差 的 最 优 解 的 数学 表达 式 ,但 绝 大 多 数 监督 式 
学 习 算法 的 目标 函数 的 最 优 解 并 不 存在 明确 的 数学 解析 表达 式 。 因 此 ,对 这 类 目标 函数 , 需 
要 用 更 具 一 般 性 的 算法 来 求解 。 搜 索 算法 是 最 常用 的 监督 式 学 习 算法 中 目标 函数 的 优化 方 
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e 训练 数据 
一 一 线性 回归 预测 


图 1.9 线性 回归 算法 示例 


法 。 第 4 章 将 全 面 . 系 统 地 讲述 机 器 学 习 中 的 搜索 算法 ,包括 梯度 下 降 算 法 、 随 机 梯度 下 降 
算法 ,牛顿 迭代 算法 以 及 坐标 下 降 算法 。 

第 5 章 介绍 Logistic 回归 算法 。 这 是 一 个 将 回归 算法 用 于 分 类 问题 的 典型 例子 。 在 
1.2 节 曾 提 到 过 ,分 类 问题 可 以 转化 为 预测 对 象 属于 每 一 类 别 的 概率 。 而 对 概率 的 预测 可 
以 认为 是 一 个 回归 问题 。 由 于 概率 值 是 0 一 1 的 一 个 实数 ,而 线性 回归 模型 并 不 能 保证 其 输 
出 必定 在 此 范围 内 ,因此 ,不 宜 直 接 采 用 线性 回归 模型 来 预测 概率 。 如 何 才 能 保证 回归 算法 
的 输出 值 为 0 一 1? 这 就 是 Logistic 回归 的 核心 思想 。Logistic 回归 算法 将 线性 回归 算法 的 
输出 作为 如 下 Sigmoid 函数 的 输入 : 


o(t)= 5 
Sigmoid 函数 的 图 形 见 图 1.10, HFO<o(t)<1, Vr ER, 因此 ,Logistic 回归 算法 的 输出 
值 一 定 是 在 0 一 1 的 一 个 实数 ,因而 可 以 将 它 作 为 概率 的 预测 值 。 

事实 上 ,还 有 很 多 种 方式 可 以 把 线性 回归 的 输出 限制 于 0 一 1。 为 什么 偏 要 用 Sigmoid 
函数 呢 ? 这 是 第 5 章 中 要 讨论 的 问题 。 

第 6 章 介绍 另 一 个 分 类 算法 一 一 支持 向 量 机 。 这 个 算法 最 常见 的 应 用 是 二 元 分 类 问 
题 。 在 一 个 二 元 分 类 问题 中 ,训练 数据 的 标签 只 有 一 1 与 十 1 两 种 取 值 。 许 多 重要 的 机 器 学 
习 应 用 都 是 二 元 分 类 问题 。 如 果 通 过 观察 ,发 现 带 一 1 标签 与 十 1 标签 的 训练 数据 可 以 用 一 
条 直线 区 分 开 ,那么 支持 向 量 机 就 是 一 个 合适 的 算法 。 通 过 训练 ,支持 向 量 机 算法 将 计算 出 
一 条 直线 的 方程 ,使 得 带 一 1 标签 与 十 1 标签 的 训练 数据 分 别 居 于 该 直线 的 两 侧 。 

在 这 里 ,有 一 个 非常 关键 的 问题 : 能 够 区 分 正 负 标签 的 直线 有 无 穷 多 条 ,究竟 应 该 选取 
哪 一 条 直线 作为 分 离 直线 ? 这 个 问题 的 答案 正 是 支持 向 量 机 算法 的 中 心思 想 : 选择 一 条 最 
为 “中 立 ” 的 直线 作为 分 离 直 线 。 更 精确 地 讲 , 选 取 的 直线 应 使 得 该 直线 到 最 近 的 标签 为 一 1 
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线性 回归 输出 
1.10 Sigmoid 函数 


的 点 的 距离 与 到 最 近 的 标签 为 十 1 的 点 的 距离 相等 ,如 图 1. 11 所 示 。 那 些 到 这 条 直线 距离 


最 近 的 点 就 称 为 支持 向 量 ,这 就 是 该 算法 名 字 的 来 源 。 


4.0 


e +1 标 签 点 


35 e 一 1 标签 点 


支持 向 量 ， 


44 46 48 50 52 54 56 58 
图 1.11 支持 向 量 机 算法 的 分 离 直线 


如 果 在 带 一 1 标签 与 带 十 1 标签 的 训练 数据 之 间 不 存在 任何 直线 边界 ,是 否 就 不 能 使 用 
支持 向 量 机 算法 了 ? 在 第 6 章 中 要 介绍 一 个 机 器 学 习 的 重要 算法 技巧 一 一 核 方法 。 结 合 核 


方法 ,支持 向 量 机 算法 可 以 处 理 不 规则 的 边界 计算 问题 。 


线性 回归 、Logistic 回归 与 支持 向 量 机 这 3 种 算法 有 一 个 共同 的 特点 , 那 就 是 它们 都 要 


求 训练 数据 的 特征 取 值 是 具有 数量 意义 的 数值 特征 。 以 房价 预测 为 例 ,如 果 要 使 


用 线性 回 


归 算 法 ,那么 只 能 选用 诸如 房屋 面积 ,与 地 铁 站 的 距离 等 数值 特征 。 然 而 ,除了 数值 特征 之 


外 ,还 有 一 种 常见 的 特征 ,被 称 为 类 别 特征 。 例 如 ,房屋 的 朝向 是 一 个 类 别 特征 , 房 


屋 对 应 的 


学 区 也 是 一 个 类 别 特征 。 线 性 回归 、Logistic 回归 和 支持 向 量 机 等 数值 算法 往往 无 法 直接 使 


别 特征 的 最 佳 选择 。 


用 类 别 特征 。 那 么 ,应 该 如 何 最 好 地 使 用 类 别 特征 ? 第 7 章 中 介绍 的 决策 树 算 法 是 处 理 类 


顾名思义 ,决策 树 具有 树 状 结构 。 每 个 叶 节点 对 应 算法 的 一 个 输出 。 其 他 每 个 非 叶 节 


点 对 应 一 个 特征 。 特 征 可 以 是 类 别 特征 ,也 可 以 是 数值 特征 。 决 策 树 算法 通过 训练 数据 特 
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征 的 阔 值 选择 来 决定 输出 决策 树 的 结构 。 训 练 完成 之 后 ,在 测试 时 ,决策 树 模型 将 从 根 节点 
开始 搜索 ,不断 在 每 一 节点 处 根据 测试 数据 的 特征 的 取 值 选择 进入 下 一 个 子 节点 ,直至 到 达 
一 个 叶 结 点 为 止 , 并 且 以 该 叶 结 点 所 带 的 值 为 模型 的 输出 。 图 1. 12 是 房价 预测 的 决策 树 
示例 。 


图 1.12 房价 预测 决策 树 示例 


决策 树 算法 既 可 以 处 理 分 类 问题 ,也 可 以 处 理 回 归 问 题 。 那 么 ,决策 树 算法 是 如 何 决定 输 
出 决策 树 的 结构 的 ? 决策 树 与 线性 回归 等 算法 相 比 熟 优 熟 劣 ? 在 第 7 章 中 将 回答 这 些 问题 。 

第 8 章 介 绍 神经 网 络 。 这 是 当前 最 前 沿 的 深度 学 习 算 法 研究 的 基础 。 神 经 网 络 算法 的 
思想 起 源 于 对 人 类 大 脑 运作 方式 的 模拟 。 在 神经 科学 中 ,普遍 认为 大 脑 是 通过 一 个 个 神经 
元 来 层 层 传递 信息 的 。 而 每 一 个 神经 元 通过 树 突 、 胞 体 和 轴 突 分 别 进行 信息 的 输入 、 处 理 与 
输出 。 图 1. 13 所 示 的 神经 网 络 模型 就 采用 了 类 似 的 结构 。 


隐藏 层 1 ”隐藏 层 2 
NS iw 
BO OO SO--w 
CO NU 


OUO DO -- 
BIO AC f ener 


图 1.13 神经 网 络 模型 


网 络 中 的 每 一 个 节点 模拟 一 个 神经 元 ,并 被 组 织 为 层 状 结构 。 第 一 层 为 输入 层 ,用 一 个 
神经 元 来 接收 特征 输入 。 输 入 层 的 神经 元 只 负责 将 信息 传人 网 络 ,而 不 做 任何 处 理 。 输 入 
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层 之 后 为 隐藏 层 。 网 络 中 可 以 有 一 个 或 多 个 隐藏 层 。 每 一 个 隐藏 层 中 的 每 一 个 神经 元 都 与 
上 一 层 中 的 所 有 神经 元 用 边 相连 ,这 些 边 就 是 模拟 神经 。 每 条 边 具 有 一 个 权 值 , 由 算法 计算 
得 出 。 每 一 个 隐藏 层 中 的 神经 元 都 以 上 一 层 中 所 有 神经 元 输出 的 加 权 和 作为 输入 ( 权 值 为 
相连 的 边 所 带 的 权 值 ) ,并 对 该 输入 做 一 定 的 处 理 ; 然 后 ,输出 处 理 过 的 数值 作为 下 一 层 的 输 
和信。 隐藏 层 的 层 数 与 每 一 个 隐藏 层 中 神经 元 的 个 数 (各 层 可 以 有 不 同 数量 的 神经 元 ) 都 由 算 
法 设计 者 确定 。 最 后 一 层 是 输出 层 , 该 层 中 神经 元 的 个 数 视 输出 需求 而 定 。 如 果 是 一 个 回 
归 问 题 ,就 只 需要 一 个 输出 神经 元 ;但 如 果 是 一 个 分 类 问题 ,输出 神经 元 的 个 数 通 常 等 于 类 
别 数 ,而 每 一 个 神经 元 的 输出 就 是 预测 对 象 属于 相应 类 别 的 概率 。 第 8 章 将 详细 介绍 神经 
网 络 的 算法 原理 与 实现 。 

第 9 章 介绍 深度 学 习 。 近 年 来 ,高 性 能 计算 芯片 的 飞速 发 展 使 得 构建 深层 的 复杂 结构 
神经 网 络 成 为 可 能 。 第 9 章 中 介绍 的 卷 积 神经 网 络 与 循环 神经 网 络 是 深度 学 习 的 两 类 最 重 
要 的 算法 。 卷 积 神经 网 络 模拟 人 类 的 视觉 神经 ,适用 于 图 片 识 别 的 相关 任务 。 循 环 神经 网 
络 模拟 人 脑 的 记忆 功能 ,适用 于 时 间 序 列 及 自然 语言 的 相关 任务 。 


2. 第 10,11 章 : 关于 无 监督 学 习 
第 10 章 介 绍 降 维 算法 。 其 中 的 代表 性 算法 是 主 成 分 分 析 法 ,又 称 为 PCA (Principal 
Component Analysis) 算 法 。 主 成 分 分 析 法 通过 线性 映射 将 高 维 空间 投影 (又 称 为 嵌入 ) 到 
一 个 较 低 维 空间 中 ,并 希望 经 过 投影 后 的 数据 方差 尽 可 能 大 。 从 直观 上 看 ,投影 后 数据 的 方 
差 越 大 ,数据 所 保留 的 信息 量 就 越 大 。 例 如 ,在 图 1. 14 中 ,数据 沿 着 向 量 w 的 投影 方差 最 
大 ,所 以 主 成 分 分 析 法 将 数据 沿 向 量 w 的 投影 作为 数据 的 低 维 嵌 入 。 
2.0 


-2.0 4 M M T Tr T 
-2.0 -1.5 -10 -05 00 0.5 10 15 2.0 


图 1.14 主 成 分 分 析 法 示例 


除了 主 成 分 分 析 法 之 外 ,第 10 章 还 将 介绍 线性 判别 分 析 法 、 局 部 线性 嵌入 法 和 多 维 缩 
放 算 法 等 多 个 不 同 风格 的 降 维 算法 。 

第 11 章 详细 介绍 聚 类 算法 。 其 中 的 代表 性 算法 是 均值 算法 。 对 一 组 空间 中 的 点 , 
均值 算法 选 出 k 个 中 心 ,并 根据 指定 的 距离 函数 .将 每 一 点 分 配 到 距离 最 近 的 中 心 ,以 此 方 
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式 将 所 有 点 聚 成 上 《个 类 ,如 图 1. 15 所 示 。 那 么 ,应 如 何 选 出 个 中 心 ? 这 上 个 中 心 应 当 满 
足 什么 条 件 ? 这 些 问题 将 在 第 11 章 中 得 到 回答 。 


d 3 4d 9 T $ 35 4 
图 1.15 k 均值 算法 示例 


除了 “均值 算法 之 外 ,在 第 11 章 中 还 将 介绍 合并 聚 类 与 DBSCAN 算法 。 这 是 两 个 经 
典 的 聚 类 算法 。 


3. 第 12 章 : 关于 强化 学 习 

强化 学 习 的 任务 形式 分 为 两 类 。 

第 一 类 是 有 模型 强化 学 习 。 在 这 类 任务 中 ,行动 对 环境 的 改变 效果 以 及 可 能 获得 的 奖 
惩 是 已 知 的。 在 这 一 假定 下 ,算法 可 以 在 所 有 行动 开始 之 前 用 动态 规划 算法 预先 计算 出 最 
优 策略 。 第 12 章 将 介绍 值 迭代 与 策略 迭代 这 两 个 典型 的 动态 规划 算法 。 

第 二 类 任务 是 免 模型 强化 学 习 。 在 这 类 任务 中 ,行动 对 环境 的 改变 效果 以 及 可 能 获得 
的 奖惩 是 未 知 的 。 算 法 必须 通过 自行 探索 来 获得 环境 的 信息 以 及 行动 的 奖惩 值 。 第 12 章 
将 介绍 两 类 免 模型 强化 学 习 算法 。 第 一 类 是 时 序 差分 型 算法 。 这 类 算法 通过 对 行动 可 能 获 
得 的 奖惩 建 模 来 学 习 最 优 策略 。 其 中 的 代表 性 算法 是 Sarsa 算法 、Q 学 习 算法 和 深度 Q 神 
经 网 络 。 深 度 Q 神 经 网 络 是 深度 学 习 与 强化 学 习 相 结 合 的 产物 。 第 二 类 免 模型 强化 学 习 算 
法 是 策略 梯度 型 算法 。 这 类 算法 直接 对 策略 建 模 。 其 中 的 代表 性 算法 是 REINFORCE 算 
法 和 Actor-Critic 算法 。 

机 器 学 习 是 一 门 数学 \ 统 计 学 与 计算 机 科学 的 交叉 学 科 , 所 以 ,在 介绍 机 器 学 习 算法 时 
需要 用 到 许多 基本 的 数学 概念 与 结论 。 在 附录 A 中 汇总 了 本 书 涉及 的 数学 与 运筹 学 知识 。 
其 中 包括 线性 代数 、 微 积分 与 优化 理论 。Python 语言 是 机 器 学 习 算 法 实践 的 最 佳 选择 之 
一 , 它 集 成 了 许多 机 器 学 习 数 据 库 与 工具 库 。 因 此 ,本 书 采 用 Python 语言 来 描述 并 实现 书 
中 所 有 的 算法 。 在 附录 B 中 ,对 Python 语言 的 基本 语法 做 了 入 门 性 的 介绍 。 有 一 定 程 序 设 
计 基 础 的 读者 可 以 通过 附录 B 中 对 Python 语言 的 介绍 ,快速 掌握 阅读 本 书 必要 的 Python 
语言 知识 。 此 外 ,TensorFlow 是 目前 最 为 流行 的 神经 网 络 算法 实践 平台 。 第 9 章 的 深度 学 


14 


第 1 章 


上 机 器 学 习 算法 概述 


习 与 第 12 章 的 强化 学 习 都 需要 用 到 TensorFlow。 因 此 ,在 附录 B 中 也 对 TensorFlow 基本 
知识 做 了 介绍 。 

尽管 本 书 中 介绍 的 绝 大 多 数 算法 都 已 经 集成 在 Python 的 机 器 学 习 工 具 库 Sklearn 中 了 
(在 附录 B 中 具体 介绍 Sklearn 工具 库 的 使 用 方法 ) ,本 书 依 然 给 出 了 这 些 算法 的 具体 实现 。 
这 样 做 的 目的 是 深入 剖析 这 些 算法 ,同时 充分 展示 机 器 学 习 算法 设计 的 计算 思维 方式 ,这 种 
计算 思维 方式 正 是 将 来 人 工 智能 创新 与 实践 的 基石 。 


1.4 ”有 关 术 语 的 约定 


本 书 在 介绍 机 器 学 习 算 法 的 基本 概念 以 及 算法 思想 和 原理 时 ,不 可 避免 地 会 涉及 数学 、 
统计 学 与 计算 机 科学 等 相关 学 科 中 的 有 关 概 念 和 术语 。 由 于 学 科 的 差异 性 ,有 些 相同 或 相 
近 的 概念 和 术语 在 不 同学 科 中 的 内 涵 不 尽 相 同 ,由 此 可 能 导致 概念 上 的 混淆 。 为 此 ,本 节 对 
一 些 容易 产生 误解 的 概念 和 术语 做 出 明确 的 约定 。 在 本 书 中 所 有 向 量 和 矩阵 都 用 黑 斜 体 来 


1. 向 量 和 数组 

向 量 是 线性 代数 中 的 基本 概念 。 一 个 nn 维 向 量 v 由 了 个 实数 ev neo, 构成 , 记 作 
v — (vi vo neo) V HAR RS Pn 维 实数 向 量 。 这 里 ,向 量 v 中 的 元 素 个 数 是 n, 也 称 其 
维 数 为 n。 因 此 ,在 数学 中 ,元 素 个 数 是 n 的 向 量 被 称 为 一 个 维 向 量 。 

在 计算 机 科学 中 ,与 向 量 相 关联 的 概念 是 数组 。 通 常 可 以 用 计算 机 中 的 一 个 长 度 是 n 
的 一 维 数组 ,例如 用 a[0..n 一 1j 存 储 一 个 EE iE v fif api] — v 0i n—1. 这里， 
数组 a PERSÉE n, 也 称 其 长 度 为 no 

在 这 两 个 关联 的 概念 中 ,容易 混淆 的 是 向 量 和 数组 的 维 数 、 长 度 和 下 标 。 在 数学 中 ,由 
个 实数 构成 的 向 量 是 一 个 维 向 量 ;而 在 计算 机 科学 中 ,存储 一 个 维 向 量 的 数组 是 一 个 一 
维 数组 。 不 可 混淆 维 数 在 这 两 个 相关 概念 中 的 意义 。 

在 数学 中 ,一 个 维 向 量 v 的 长 度 通 常 指 它 在 度量 空间 中 的 范 数 。 例 如 ,在 欧 几 里 得 空 
间 中 ,n 维 向 量 w 的 长 度 是 V 太 十 强 十 … 十 成 。 而 在 计算 机 科学 中 ,存储 一 个 n 维 向 量 的 一 
维 数组 有 个 单元 ,因此 也 称 其 长 度 为 n。 

在 数学 中 ,一 个 nn 维 向 量 w 的 下 标 通常 从 1 开始 ,到 nn 结束。 而 在 计算 机 科学 中 ,存储 一 
A n 维 向 量 的 一 维 数组 a 的 下 标 通常 从 0 开始 ,到 一 1 结束 。 

2. 和 矩阵 和 多 维 数 组 

数学 中 的 矩阵 再 次 与 计算 机 科学 中 的 数组 相关 联 。 在 数学 中 ,一 个 冯 X7 和 矩阵 4 表示 
Hm Xn 个 实数 排列 成 的 m 行 n 列 的 阵列 : 


an dui 7 01 
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Iti (4E [38 25 B m 行 n WX 9. (PR m X n BE, RIF A BTE F BRA 1E. 5] m 
结束 ; 列 下 标 从 LJEIS 80 n 结束。 

一 个 nxX1 的 矩阵 被 称 为 列 向 量 , 而 一 个 1 Xn 的 矩阵 被 称 为 行 向 量 。 按 照 约 定 ,线性 代 
数 中 的 向 量 均 为 列 向 量 。 常 用 形式 


或 者 v = (vivono, ) 强调 wv 是 一 个 列 向 量 。 

在 计算 机 科学 中 ,通常 用 一 个 二 维 数组 a[0..m 一 1][0..n 一 1] 来 存储 矩阵 A 中 的 m Xn 
个 元 素 , 即 : a[i — 1][j — 1] — aj 1 imd Lj ns DIER a 的 行 下 标 从 0 开始 ,到 
m — Y 结束 ; 列 下 标 从 0 开始 ,到 一 1 结束。 本 书 遵循 这 种 下 标 关联 性 约定 。 


3. 特征 向 量 

在 有 关机 器 学 习 的 英文 文献 中 常用 到 两 个 专业 术语 一 一 feature vector 和 eigenvector。 
这 两 个 英文 专业 术语 表达 的 内 涵 本 来 是 很 明确 的 ,但 翻译 成 中 文 都 是 “特征 向 量 ”, 由 此 造成 
了 一 些 混乱 。 为 了 避免 由 此 产生 的 误解 ,在 本 书 中 用 “特征 组 ”来 表达 feature vector 的 术语 
内 涵 , 而 用 “特征 向 量 " 来 表达 eigenvector 的 术语 内 涵 。 


小 结 


本 章 对 机 器 学 习 算法 做 了 概述 ,介绍 了 机 器 学 习 的 基本 概念 以 及 机 器 学 习 按 学 习 形 式 
的 分 类 ,并 对 本 书 中 讲述 的 诸多 机 器 学 习 算法 做 了 综合 介绍 。 在 后 续 各 章 中 ,将 系统 地 对 机 
器 学 习 算法 的 理论 与 实践 做 深入 的 介绍 。 因 此 ,本 章 内 容 是 学 习 后 续 各 章 内 容 的 基础 和 
准备 。 


第 2 章 监督 式 学 习 算法 基础 


在 第 1 章 中 通过 一 些 具体 例子 介绍 了 机 器 学 习 的 形式 分 类 。 机 器 学 习 的 学 习 形 式 可 分 
为 两 大 类 。 一 类 是 监督 式 学 习 , 另 一 类 是 无 监督 学 习 。 从 本 章 开 始 直 到 第 9 章 , 将 深入 探讨 
监督 式 学 习 算法 的 理论 与 应 用 。 

什么 是 特征 与 标签 ? 什么 是 机 器 学 习 模 型 ? 如 何 训练 模型 来 完成 预测 任务 ”什么 是 过 
度 拟 合 ? 本 章 将 回答 这 些 机 器 学 习 算 法 中 最 基本 的 问题 。 

在 2. 1 节 中 定义 了 包括 特征 ,标签 . 损 失 函 数 及 模型 等 贯穿 全 书 的 基本 概念 ,并 精确 定 
义 了 监督 式 学 习 的 任务 与 度量 。2. 2 节 介 绍 针对 监督 式 学 习 的 经 验 损失 最 小 化 算法 架构 ， 
该 算法 架构 以 最 小 化 训练 数据 上 的 误差 作为 其 模型 训练 的 原则 。 本 书 中 探讨 的 所 有 监督 式 
学 习 算 法 都 是 经 验 损失 最 小 化 算法 在 具体 问题 中 的 表现 。 在 2. 3 节 中 ,通过 一 个 实例 来 具 
体 化 监督 式 学 习 的 基本 概念 及 展示 经 验 损失 最 小 化 算法 架构 的 流程 。 由 于 实际 应 用 中 的 训 
练 数据 往往 会 因 各 种 限制 而 导致 数据 量 不 足 , 因 此 单纯 优化 训练 数据 上 的 经 验 损失 可 能 导 
致 过 度 拟 合 。2. 4 节 介 绍 通过 一 系列 正则 化 技巧 来 降低 过 度 拟 合 概率 的 算法 。 


2.1 监督 式 学 习 基 本 概念 


监督 式 学 习 的 主要 任务 是 根据 对 象 的 特征 来 预测 其 标签 。 相 应 的 学 习 算法 需要 对 经 验 
进行 学 习 。 因 此 ,训练 数据 是 监督 式 学 习 算 法 的 一 个 重要 组 成 部 分 。 训 练 数据 是 随机 抽取 
观测 对 象 采集 到 的 数据 。 这 些 数据 简称 为 采样 ,也 称 为 样本 。 每 一 条 训练 数据 都 含有 特征 
与 标签 。 例 如 ,房价 预测 问题 的 训练 数据 是 过 去 一 年 的 房屋 成 交 记录 , 它 含有 各 种 房屋 的 特 
征 以 及 售 价 。 通 过 对 训练 数据 的 学 习 , 算 法 能 够 训练 出 一 个 模型 来 预测 标签 ,并 且 根 据 给 定 
的 度量 方法 来 检验 模型 预测 的 效果 。 

为 了 正式 定义 监督 式 学 习 , 需 要 介绍 以 下 几 个 基本 要 素 : 特征 ,标签 分布. 模型 与 损失 
函数 。 下 面 逐 一 给 出 它们 的 正式 定义 。 
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具备 特征 的 对 象 是 机 器 学 习 问 题 的 一 个 基本 单位 。 每 个 对 象 可 能 有 各 种 各 样 的 特征 ， 
所 以 数学 上 用 向 量 来 表示 全 体 对 象 特征 。 

定义 2.1( 特 征 组 ) 在 一 个 监督 式 学 习 问题 中 ,将 每 个 对 象 的 nn 个 特征 构成 的 向 量 x 一 
(Qnexetec,)€R 称 为 该 对 象 的 特征 组 。 设 X E R 是 特征 组 的 所 有 可 能 取 值 构成 的 集 
合 , 称 X 为 样本 空间 。 

例如 ,在 第 1 章 介绍 的 房价 预测 问题 中 ,预测 的 对 象 为 某 小 区 的 房屋 。 每 个 房屋 都 有 房 
屋面 积 、 卧 室 数 和 房 龄 3 个 特征 。 这 3 个 特征 构成 了 每 个 房屋 的 特征 组 。 如 果 某 个 房屋 的 
面积 为 100m* ,有 两 间 卧 室 , 房 龄 为 15 年 , 则 该 房屋 的 特征 组 x 一 (100,2,15) 。 

在 第 1 章 中 已 经 通过 例子 介绍 了 标签 的 概念 。 监 督 式 学 习 的 每 一 条 训练 数据 都 带 有 标 
签 。 根 据 标签 的 不 同形 式 ,监督 式 学 习 又 分 为 两 类 : 回归 问题 与 分 类 问题 。 一 个 含有 个 类 
别 的 分 类 问题 称 为 元 分 类 问题 。 

定义 2.2( 标 签 ) 在 回归 问题 中 ,训练 数据 含有 一 个 数值 标签 y € Rs 在 元 分 类 问题 
中 ,训练 数据 含有 一 个 向 量 标签 yE [0.1]^. 设 Y 为 全 体 可 能 的 标签 取 值 , 称 Y 为 标签 空间 。 

为 了 解释 定义 2.2, 首 先 探讨 回归 问题 。 回 归 问 题 的 标签 是 对 象 的 一 个 数值 属性 ,所 以 
可 以 用 一 个 数值 y € 本 表示 标签 。 例 如 ,在 房价 预测 问题 中 ,房屋 交易 价格 是 房屋 的 一 个 
数值 标签 。 

再 来 探讨 分 类 问题 。 分 类 问题 的 标签 表示 对 象 的 类 别 。 在 一 个 含有 A 个 不 同类 别 的 分 
类 问题 中 ,每 个 对 象 的 标签 都 可 以 表示 为 一 个 k 维 向 量 。 如 果 该 对 象 属于 第 1 类 , 则 标签 向 
量 的 第 1 位 的 值 是 1, 其 余 位 的 值 是 0。 所 以 ,标签 的 可 能 取 值 是 全 体 上 人 维 0-1 向 量 {0,1}*。 
例如 ,在 第 1 章 介绍 的 手写 数字 识别 问题 中 ,标签 是 一 个 10 维 向 量 。 如 果 训 练 数据 图 片 中 
是 数字 3, 则 标签 为 (0.0,0,1,0,0,0.0,0,0)。 为 了 便于 叙述 ,通常 定义 分 类 问题 的 标签 空 
间 为 [0.1]^. 即 分 量 均 属于 [0,1] 区 间 的 k 维 向 量 全 体 。 

对 于 分 类 问题 ,除了 定义 2. 2 中 的 向 量 标签 的 表示 方法 之 外 ,有 时 也 采用 更 加 简洁 的 标 
签 表示 方式 , 即 如 果 对 象 属于 第 个 类 , 则 设 标签 值 为 +。 例如 ,在 手写 数字 识别 问题 中 ,如 果 
训练 数据 的 对 象 是 数字 3 ,标签 就 赋值 3。 对 于 二 元 分 类 问题 ,还 有 另外 两 种 常用 的 标签 表 
示 方 法 。 第 一 种 表示 方法 是 用 0 和 1 分 别 表示 两 个 不 同 的 类 别 所 对 应 的 标签 。 第 二 种 表示 
方法 是 用 一 1 和 十 1 分 别 表示 两 个 不 同类 别 所 对 应 的 标签 。 这 些 不 同 的 标签 表示 方法 实际 
上 没有 本 质 区 别 , 可 以 根据 需要 选择 一 种 能 最 大 程度 简化 记号 的 标签 表示 法 。 

从 以 上 描述 可 以 看 出 ,标签 的 形式 灵活 多 样 , 既 可 以 是 数值 形式 ,也 可 以 是 向 量 形式 。 
在 对 监督 式 学 习 算 法 作 一 般 性 描述 时 ,本 书 都 将 标签 记 作 y, 来 强调 标签 的 取 值 可 能 是 向 
量 ;具体 到 某 一 问题 中 时 ,如 果 标 签 为 数值 ,例如 回归 问题 , 则 将 标签 记 作 y, 来 强调 标签 是 
一 个 数值 。 

在 监督 式 学 习 中 ,有 两 个 重要 的 假设 : 

(1) 对 象 (或 特征 组 ) 不 是 无 规律 出 现 ,而 是 服从 一 定 的 概率 分 布 。 

(2) 给 定 对 象 的 标签 也 不 是 无 规律 生成 的 ,而 是 服从 某 个 由 对 象 特征 组 决定 的 概率 
分 布 。 
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这 就 需要 对 特征 分 布 和 标签 分 布 做 如 下 定义 。 

定义 2.3( 特 征 分 布 ) iE X 为 样本 空间 。 监 督 式 学 习 假 定 特征 组 是 由 一 个 X 上 的 概率 
分 布 D 生成 的 。 称 D 为 特征 分 布 。 用 x — D 表示 x 为 依 特征 分 布 DD 的 一 个 随机 采样 。 

定义 2.4( 标 签 分 布 ) 设 Y 为 标签 空间 。 对 任意 的 x € X. 监督 式 学 习 假 定 存 在 一 个 由 
x REW Y ERRERA De, 使 得 x 对 应 的 标签 y 服从 DD,。 称 D. 为 特征 组 x 的 标签 分 布 。 
y — D, 表示 y 为 依 分 布 D. 随机 生成 的 标签 。 

例如 ,在 房价 预测 问题 中 ,特征 分 布 是 正比 于 人 口 分 布 的 。 在 人 口 越 密 集 的 区 域 ,房屋 
交易 越 频繁 ,产生 样本 的 概率 也 越 高 。 对 任意 给 定 的 房屋 特征 ,房价 也 是 一 个 随机 变量 。 对 
一 批 十 分 相似 的 房屋 ,房价 未 必 完 全 相同 。 它 可 能 是 以 某 个 价格 为 期 望 的 正 态 分 布 ,这 就 是 
标签 分 布 。 当 然 在 有 的 问题 中 ,标签 由 特征 唯一 确定 。 例 如 ,在 手写 数字 识别 问题 中 ,大 多 
数 情况 下 标签 值 是 唯一 确定 的 。 此 时 ,标签 分 布 退化 为 一 个 单 点 分 布 。 

有 了 标签 分 布 的 概念 ,就 可 以 严格 定义 监督 式 学 习 的 任务 了 。 前 面 曾 将 监督 式 学 习 的 
任务 概要 地 描述 为 根据 特征 对 标签 做 出 预测 。 实 际 上 可 以 更 加 精确 地 描述 如 下 : 对 任意 的 
特征 组 x € X. 如 果 将 标签 y 看 作 分 布 为 D, 的 随机 变量 , 则 监督 式 学 习 算法 的 任务 是 预测 y 
FO MER (EE, [y]. 无 论 是 回归 问题 还 是 分 类 问题 ,都 有 EE,~o,[y] € Y. 因此 可 以 认为 监督 
式 学 习 的 任务 是 计算 从 样本 空间 X 到 标签 空间 Y 的 映射 。 这 样 的 映射 就 称 为 一 个 模型 。 

定义 2.5( 模 型 ) 设 X 为 样本 空间 , Y 为 标签 空间 , o A REX Y tem. Ao 
为 模型 空间 。 任 意 模型 空间 中 的 映射 hE $ 都 称 为 一 个 模型 。 

综合 定义 2. 1 至 定义 2.5, 可 以 对 监督 式 学 习 任 务 正式 定义 如 下 。 

定义 2.6( 监 督 式 学 习 任 务 ) ”在 一 个 监督 式 学 习 问 题 中 ,给 定 样本 空间 X、 标签 空间 
Y | 未 知 的 特征 分 布 D 与 标签 分 布 {D;:x EX}, 监督 式 学 习 任务 是 计算 一 个 模型 h:X 一 
Y | 并 对 任意 特征 组 x, 以 h(x) 作为 对 标签 期 望 值 E,~op,[y] 的 预测 。 也 将 h(x) 简称 为 对 x 
的 标签 的 预测 。 

以 下 介绍 对 监督 式 学 习 算 法 效果 的 度量 方法 。 用 模型 h 对 x 的 标签 值 做 预测 时 ,预测 
结果 与 真实 情况 可 能 存在 误差 。 为 了 度量 这 个 误差 的 大 小 ,需要 引入 损失 函数 的 定义 。 

定义 2.7( 损 失 函 数 ) VE Y 为 标签 空间 。 损 失 函 数 是 一 个 从 Y XY 映射 到 正 实数 的 函 
数 1:Y XY 一 R., 并且 要 求 其 具备 如 下 性 质 : 对 任意 y EY, 有 

l(y.y)—70 (2.1) 

在 定义 2.7 中 ,损失 函数 有 两 个 参数 : 第 一 个 参数 值 表示 标签 的 真实 值 ,第 二 个 参数 表 
示 标 签 的 预测 值 。 损 失 函 数 用 于 度量 标签 的 真实 值 和 预测 值 的 误差 。 以 下 是 常用 的 损失 函 
数 的 例子 。 

例 2.1 0-1 损失 函数 


í _ (œ WR z= y (3:35 
9) — hs WE zy ` 
0-1 损失 函数 适用 于 分 类 问题 。 在 式 (2. 2) 中 , y 表示 标签 真实 值 , < 表示 标签 预测 值 。 


预测 值 与 真实 值 相同 时 ,损失 函数 值 为 0; 否 则 ,不 论 预测 值 与 真实 值 相差 多 远 ,其 损失 值 均 
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为 1。 

例 2.2 平方 损失 函数 

l(ysz)— (y—^z) yz ER (2.3) 

平方 损失 函数 适用 于 回归 问题 。 与 式 (2. 2) 的 0-1 损失 函数 不 同 , 式 (2. 3) 的 平方 损失 
函数 值 随 着 标签 预测 值 与 真实 值 的 偏离 增 大 而 增 大 。 

由 于 特征 与 标签 均 为 随机 变量 ,所 以 损失 函数 值 也 是 一 个 随机 变量 。 从 理论 上 来 说 , 损 
失 函 数 的 期 望 就 是 对 模型 效果 的 度量 。 

定义 2.8( 期 望 损失 ) 给 定 样本 空间 X, FREIE D. bs AE) fH (D, ic EX} 以 及 损失 
函数 !。 对 任意 模型 h, 定义 


Lg(h) — E.-p,,- p, [ (h (x)»y)] (2. 4) 
为 模型 的 期 望 损失 。 
在 实际 应 用 中 ,由 于 特征 分 布 D 与 标签 分 布 {D; :x € X) 是 未 知 的 ,所 以 无 法 直接 计算 
期 望 损失 。 由 此 引入 了 测试 数据 的 概念 。 
定义 2.9( 测 试 数据 与 模型 度量 ) 在 一 个 监督 式 学 习 问 题 中 ,给 定 样 本 空间 XX、 标签 空 
EY, 未 知 的 特征 分 布 D 与 标签 分 布 {D;:x € X]. 假定 一 个 监督 式 学 习 算法 输出 模型 h。 
给 定 一 组 数据 
T= (Dy us? uy)y 
其 中 ,x 中 ,x veux LÀ D X X 中 i 个 依 特 征 分 布 D 的 独立 采样 ,并 且 对 任意 1 三 i 过 :有 
y? — Do 。 将 工 称 为 测试 数据 。 用户 在 测试 数据 工 上 的 平均 损失 


Lr(h)= LDU) y) (2.5) 
i=l 


作为 模型 h 效果 的 度量 。 

测试 数据 是 用 来 模拟 期 望 损失 的 。 当 测试 数据 的 规模 足够 大 时 ,概率 论 中 的 Hoeffding 
不 等 式 ( 附 录 A 的 定理 A. 4.5) 保 证 了 式 (2. 5) 能 够 良好 地 近似 期 望 损失 。 因 此 ,计算 模型 在 
测试 数据 上 的 平均 损失 是 监督 式 学 习 实践 中 普遍 采用 的 模型 度量 法 则 。 


2.2 经 验 损 失 最 小 化 架构 


根据 监督 式 学 习 任务 与 度量 的 严格 定义 及 其 算法 要 求 ,本 节 介绍 处 理 监 督 式 学 习 问 题 
的 一 般 性 算法 架构 一 一 经 验 损失 最 小 化 。 经 验 损失 最 小 化 架构 又 被 称 为 ERM 架构 ,ERM 
是 英文 Emperical Risk Minimization 的 首 字母 缩写 。 

本 书 中 介绍 的 全 部 监督 式 学 习 算 法 ,包括 线性 回归 算法 、Logistic 回归 算法 、 支 持 向 量 机 
算法 .决策 树 算法 、 神 经 网 络 算法 ,都 是 经 验 损失 最 小 化 架构 在 具体 问题 中 的 表现 。 因 此 , 理 
解 经 验 损 失 最 小 化 架构 对 本 书 的 学 习 有 总 揽 全 局 的 意义 。 

在 理想 情况 下 ,一 个 监督 式 学 习 算 法 应 当选 择期 望 损失 最 小 的 模型 。 但 是 ,由 于 特征 及 
标签 分 布 未 知 ,无 法 直接 计算 模型 的 期 望 损失 。 这 时 .可 以 采用 与 定义 2. 9 类 似 的 解决 方 
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法 , 即 按照 特征 与 标签 分 布 独立 采样 一 组 数据 ,并 通过 模型 在 这 组 数据 上 的 平均 损失 来 近似 
期 望 损失 。 将 这 样 的 一 组 数据 称 为 训练 数据 。 将 模型 在 训练 数据 上 的 平均 损失 称 为 经 验 
T. 
定义 2. 10( 训 练 数据 与 经 验 损 失 ) 给 定 损失 函数 ! 以 及 一 组 数据 
Si CO 

其 中 ,xD a? Lex. — DOM X Pm 个 依 特 征 分 布 DD Wih SERE BIHER 1 Lim 
A y? ~ Do ,将 S 称 为 训练 数据 。 将 hh 在 S 中 所 有 数据 的 平均 损失 称 为 h 的 经 验 损失 ,用 
如 下 记号 表示 


= ADUE) y®) (2.6) 
i=] 


当 训练 数据 的 规模 足够 大 时 ，Hoeffding 不 等 式 保证 了 经 验 损失 能 够 良好 地 近似 期 户 
损失 。 因 此 ,图 2. 1 中 描述 的 无 约束 经 验 损失 最 小 化 算法 架构 是 一 个 十 分 自然 的 模型 训练 
法 则 。 


无 约束 经 验 损失 最 小 化 算法 架构 

给 定 样本 空间 X、 标 签 空 间 Y、 模型 空间 $B 和 损失 函数 1:YXY 一 Rt。 
输入 : m 条 训练 数据 S = (Ga? Sy) Ly 9 ) eG yo )} 
输出 模型 : hs 一 argmin Ls (h) 


图 2.1 无 约束 经 验 损失 最 小 化 算法 架构 


图 2. 1 的 这 个 简单 的 算法 架构 就 称 为 无 约束 经 验 损失 最 小 化 算法 架构 。 称 其 为 “无 约 
东 ” 是 因为 模型 的 选择 不 受 任何 约束 . 它 可 以 输出 模型 空间 更 中 的 任何 模型 。 

无 约束 经 验 损失 最 小 化 算法 的 特点 在 于 它 精确 地 拟 合 了 训练 数据 。 实 际 上 应 用 拉 格 朗 
日 插值 法 可 以 构造 一 个 多 项 式 hs), 使 得 对 任意 1 过 i 三 m, 有 hs(x”) 二 y?。hs(x) 的 
系数 有 精确 的 数学 表达 式 , 并 且 可 以 高 效 地 计算 出 来 。 由 此 可 知 , hs (x) 在 S 上 的 经 验 损失 
Ls(h) = 0。 这 就 引出 了 一 个 机 器 学 习 中 常 发 生 的 问题 一 一 过 度 拟 合 。 下 面 通过 一 个 简单 的 
例子 展示 过 度 拟 合 的 概念 。 

例 2.3 假定 样本 空间 X — [一 1,1], 特征 分 布 马 为 X 上 的 均匀 分 布 ,标签 空间 Y — R, 
标签 分 布 D, = N (zx,0.3) 是 期 望 为 xz 且 标 准 差 为 0.3 的 正 态 分 布 。 损 失 函 数 为 例 2. 2 中 
的 平方 损失 函数 。 

考察 包含 10 条 数据 的 训练 数据 集合 S, 如 图 2. 2(a) 所 示 。 在 S 上 ,无 约束 的 经 验 损失 
最 小 化 算法 应 用 拉 格 朗 日 插值 求 得 一 个 精确 地 拟 合 训练 数据 的 多 项 式 As, 如 图 2. 2(b) 所 示 
(其 拟 合 模型 的 算法 将 在 第 3 章 的 例 3. 6 介绍 )。 

尽管 训练 数据 得 到 精确 拟 合 ,但 是 再 考察 图 2. 3 所 示 的 100 条 测试 数据 点 ,可 以 看 出 hs 
不 再 能 完美 地 拟 合 所 有 测试 数据 了 。 

尽管 这 只 是 一 个 简单 的 例子 ,还 是 可 以 从 中 体会 到 什么 是 过 度 拟 合 及 其 对 机 器 学 习 效 
果 的 影响 般 来 说 , 当 一 个 模型 过 多 地 拟 合 训练 数据 中 的 特例 而 影响 了 它 的 可 推广 性 时 ， 
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20 20 
15 LS 
10 10 
À 
0.5 bs * 0.5 
0.0 . 0.0 
A5] . * * -0.5 
ao] * -1.0 
ET -1.5 
-2.0 -2.0 | 
1.00 -0.75-0.50 -0.25 0.00 025 0.50 0.75 1.00 -1.00 -0.75-0.50-0.25 0.00 0.25 0.50 0.75 1.00 
(a) (b) 


图 2.2 完美 拟 合 训练 数据 的 多 项 式 hs 


-2.0 - - - - - - 
-1.00 -0.75 -0.50 -0.25 0.00 0.25 0.50 0.75 1.00 
图 2.3 hs 对 100 条 测试 数据 的 拟 合 效果 


就 认为 该 模型 是 过 度 拟 合 的 。 

如 何 降低 经 验 损 失 最 小 化 算法 过 度 拟 合 的 概率 是 该 算法 的 模型 结构 面临 的 严重 挑战 。 
从 例 2. 3 可 以 看 到 ,如 果 对 模型 的 结构 不 做 任何 假设 而 一 味 优化 算法 在 训练 数据 上 的 损失 ， 
则 无 法 避免 过 度 拟 合 。 由 此 引入 了 一 个 非常 重要 的 概念 一 一 模型 假设 。 通 过 对 训练 数据 的 
观察 以 及 对 问题 背景 的 理解 ,可 以 对 模型 的 结构 做 出 合理 的 假设 ,从 而 降低 过 度 拟 合 。 
例如 ,在 例 2. 3 中 ,从 图 2. 2(a) 观 察 训 练 数据 可 以 发 现 它 们 具有 近似 的 线性 结构 ,因而 
可 以 用 一 条 直线 来 拟 合 训练 数据 。 考 察 如 下 线性 模型 : h(x) 一 xz。 从 图 2. 4(a) 可 见 ,该 线性 
模型 没有 精确 地 拟 合 训练 数据 ,因此 在 训练 数据 上 不 是 最 优 的 。 但 是 ,用 该 线性 模型 
h (x) WAR 2. 3 中 的 100 条 测试 数据 时 ,其 拟 合 效果 与 多 项 式 hs 完全 不 同 。 从 图 2. 4(b) 
可 以 看 到 ,这 样 的 线性 模型 在 测试 数据 上 的 损失 要 小 于 精确 拟 合 训练 数据 的 模型 hs, 因而 
使 得 更 简单 的 线性 模型 反而 具有 更 强 的 可 推广 性 。 

从 上 述 例子 可 以 得 到 如 下 启示 : 因为 监督 式 学 习 假 设 标签 是 一 个 随机 变量 ,所 以 取 值 
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-2.0 
—1.00—0.75—0.50—0.25 0.00 0.25 0.50 0.75 1.00 
(b) 


-2.04 
—1.00-0.75-0.50-0.25 0.00 0.25 0.50 0.75 1.00 


(a) 
图 2.4 线性 模型 对 训练 数据 与 测试 数据 的 拟 合 效果 


总 与 期 望 有 一 定 的 偏差 。 由 于 模型 预测 的 是 标签 的 期 望 , 所 以 无 须 与 训练 数据 标签 完全 拟 
合 。 同 时 ， Verres pun 而 是 服从 某 个 未 知 的 标签 分 布 的 ,因此 对 标签 分 布 或 
对 模型 结构 做 出 恰当 假设 是 一 个 合理 的 方法 。 合 理 选择 模型 假设 是 算法 设计 者 经 验 的 重要 
体现 。 

定义 2. 11( 模 型 假设 ) ”模型 空间 o 的 任意 一 个 子 集 厅 都 称 为 一 个 模型 假设 。 

一 个 带 有 模型 假设 的 经 验 损失 最 小 化 算法 的 任务 是 计算 在 设 定 的 模型 假设 中 经 验 损 失 


最 小 的 那个 模型 ,其 算法 架构 如 图 2. 5 所 示 。 


带 模型 假设 的 经 验 损失 最 小 化 算法 架构 

给 定 样本 空间 X. 标签 空间 Y 以 及 损失 函数 1:YXY 一 人 R。 

取 定 模型 假设 H. 

输入 : m 条 训练 数据 S = (Cx y ) Lx? p yP ) (xy ,y m5) 
输出 模型 : hs = argminsen Ls CA) 


图 2.5 带 模型 假设 的 经 验 损失 最 小 化 算法 架构 


具有 图 2. 5 所 描述 的 架构 监督 式 学 习 算 法 就 称 为 带 模型 假设 的 经 验 损失 最 小 化 算法 。 
根据 具体 问题 ,选择 具体 的 模型 假设 与 损失 函数 ,可 得 到 相应 的 算法 。 


2.3 ”监督 式 学 习 与 经 验 损失 最 小 化 实例 


本 节 用 经 典 的 营 尾 花 属 种 预测 问题 来 具体 化 监督 式 学 习 的 基本 概念 与 经 验 损失 最 小 化 
算法 的 基本 流程 。 


S EAEE Cris Dataset) 是 由 美国 的 植物 学 家 Edgar Anderson 从 加 拿 大 加 斯 帕 半 

岛 上 的 成 千 上 万 昔 尾 花 中 测量 并 提取 的 。 这 个 数据 集 包 含 150 个 样本 ,分 属于 3 P 3E 4E 
种 : 山 井 尾 、 变 色 昔 尾 以 及 弗吉尼亚 音 尾 。 在 该 数据 集中 ,每 个 样本 包含 4 个 特征 : EXEC, 
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F ERKA. [BINE GAERA Tb AE E GX TREES RR. de 2. 1 是 取 
F3 FEE SER 5 个 样本 。 


表 2.1 5 个 葛 尾 花样 本 


SK dE SE ERK 花瓣 宽 属 种 
5.1 8.5 1.4 0.2 UFE 
7.0 3.2 4.7 1.4 "JE 3S je 
4.8 3.0 1.4 0.3 UFE 
6.4 2.8 5.6 2:1 HEERE 
6.2 3.0 4.9 1.8 HELLERE 


英国 统计 学 家 Ronald Fisher f£ flb f] i 3c rp d thi T 388 S FÉ 4E ER 4 个 植物 特征 来 
预测 其 属 种 的 问题 。 为 了 便于 直观 展示 算法 的 预测 结果 ,此 处 考虑 原 问题 的 一 个 简化 问题 : 
山高 尾 预 测 问题 。 

山 萝 尾 问题 是 一 个 二 元 分 类 问题 ,其 任务 是 仅 利用 花 葡 长 与 花 莹 宽 这 两 个 特征 预测 给 
定 萝 尾 花 是 否 为 山高 尾 。 这 个 问题 的 样本 空间 为 X = 区。 两 个 数值 特征 分 别 为 花 莹 的 长 与 
宽 。 标 签 表示 给 定 特征 的 高 尾 花 是 否 为 山高 尾 。 在 2. 1 节 中 提 到 过 ,二 元 分 类 问题 的 标签 
可 以 有 灵活 多 样 的 形式 。 本 节 采 用 {一 1, 十 1} 标签 形式 : 如 果 对 象 是 山高 尾 , 则 记 标 签 为 
十 1; 否 则 记 为 一 1。 将 带 十 1 标签 的 数据 称 为 正 采 样 , 带 一 1 标签 的 数据 称 为 负 采 样 。 按 照 


这 样 的 记号 , 表 2. 1 中 的 数据 可 以 表示 为 : x = (1.4,0.2),y = 1;x'? = (4.7.1.4). 
y? =—1;x® = (1.4,0.3), 79 = 1;x'? = (5.6,2.1),y —— 1; x? = (4.9,1.8), 
(D 

gm emt, 


从 车 尾 花 数据 集中 随机 采样 90 条 数据 作为 训练 数据 S. 并 将 余下 的 60 条 作为 测试 数 
据 T. 要 实现 经 验 损失 最 小 化 ,必须 通过 对 训练 数据 的 观察 来 选择 合理 的 模型 假设 。 图 2.6 
是 对 90 条 训练 数据 分 布 特点 的 直观 描述 。 

在 图 2. 6 中 ,左上 角 的 样本 点 为 正 采样 , 即 山药 尾 ; 右 下 角 的 样本 点 为 负 采 样 。 可 以 看 
出 ,通过 花 昔 长 与 宽 这 两 个 特征 就 能 分 离 这 两 类 采样 ,而 且 分 离 的 方式 不 止 一 种 。 为 了 避免 
过 度 拟 合 ,应 当 采 取 结 构 较 为 简单 的 模型 进行 分 离 。 最 简单 的 模型 就 是 用 一 条 直线 来 分 离 。 

假定 一 条 直线 有 如 下 方程 : (w,x) 十 0 一 0。 对 平面 上 的 一 个 点 x” 二 (xz? ,x2 )， 如 果 它 
位 于 直线 上 方 , 则 (w,x” 2-672705 如 果 它 位 于 直线 下 方 , 则 《w,x* ) 十 6 二 0; 如 果 它 恰巧 位 
于 直线 上 , 则 (w,x* ) 十 6 — 0。 

若 方 程 为 (w,x) +b — 0 的 直线 能 够 分 离 训练 数据 中 的 正 采样 与 负 采 样 , 则 它 一 定 满足 
如 下 条 件 : 

y? = Sign((w,x®) +b), i= 1,2,.,m (2.7) 

其 中 Sign 是 如 下 符号 函数 : 
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40 45 50 55 60 65 70 75 80 
TES 
2.6 90 条 训练 数据 的 散 点 图 


一 1， 如 果 z 二 0 
Sign(z)= 3 0， 如 果 z 二 0 (2. 8) 
+1, 如 果 z 二 0 
基于 式 (2.7) 可 以 提出 如 下 的 模型 假设 : BUE w= (wi uw) € E UR b ER 定义 
hys (x)= Sign((w.x) +b) (2.9) 
并 定义 模型 假设 为 H = (hou :w ER. b ER. 
由 于 本 问题 的 目标 是 准确 地 区 分 正 负 采 样 ,可 以 采用 例 2. 1 中 的 0-1 损失 函数 。 通 过 
计算 不 难 发 现 , 模 型 huo 在 训练 数据 (x y?) 上 的 0-1 损失 有 式 (2. 10) 中 的 形式 ， 


L(hya (x9 ) y? ) Lx Sigon +8) (2. 10) 
nf UL, LL 3 FÉ t) [0] 8 P) £6 35 368 Ac dc 7] (E 22: K EE b D 24 
Qo DN 1— y?Sign(Gw.x'? ) 4-5) z 
min zy 2 2 (2.1D 
式 (2.11) 等 价 于 如 下 优化 问题 ; 
i oat (2.12) 


wb mi 

将 一 条 能 够 准确 分 离 正 采样 与 负 采 样 的 直线 称 为 分 离 直线 。 如 果 直 线 Ovx) 十 5 是 一 
条 分 离 直线 , 则 式 (2. 12) 达 到 最 大 值 1。 由 此 可 见 , 在 山 营 尾 识别 问题 中 ,经 验 损失 最 小 化 任 
务实 际 上 就 是 计算 训练 数据 的 分 离 直线 。 

以 下 介绍 的 感知 器 算法 是 一 个 常用 的 寻找 分 离 直线 的 算法 。 它 的 使 用 前 提 是 正 负 采 样 
确实 可 以 被 一 条 直线 分 离 。 感 知 器 算法 是 一 个 贪心 算法 。 初 始 时 任意 选取 一 条 直线 ,然后 
不 断 地 “感知 ”周围 环境 而 调整 直线 的 位 置 .直至 成 功 地 区 分 正 采 样 与 负 采 样 。 图 2. 7 直观 
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地 演示 了 算法 的 运行 过 程 。 在 图 2.7 中 ,初始 直线 位 置 在 Lo N 是 在 其 上 方 的 一 个 负 采 样 
点 。 当 算法 感知 到 N 点 时 , 朝 着 该 点 调整 直线 的 位 置 至 L. 这 时 N 依然 位 于 Li 上方, 因此 
算法 继续 调整 直线 的 位 置 至 工 ;。 这 时 N 点 已 经 位 于 直线 下 方 了 ,算法 调整 结束 。 


tK 
2.7 感知 器 算法 运行 过 程 


与 图 2.7 的 情况 类 似 , 如 果 在 直线 下 方 存在 正 采样 点 , 则 算法 也 将 感知 这 个 点 并 将 直线 
朝 着 该 点 旋转 ,直至 该 点 位 于 直线 上 方 。 在 解析 几何 中 ,为 了 使 得 直线 y= (wx) 十 4b 朝 着 
点 (x9 «y? ) 转动 ,可 以 采用 如 下 方法 : 
w-— wy? x? (2:13) 
bb y? (2.14) 
对 感知 器 算法 的 完整 描述 见 图 2.8。 当 感知 到 一 个 目标 点 (x? «y? ) 之 后 ,感知 器 算法 
总 是 通过 式 (2. 13) 与 式 (2. 14) 将 直线 朝 着 该 目标 点 调整 ,以 期 将 该 点 移 至 直线 另 一 侧 。 


感知 器 算法 
w— (0,0) ,5—0, done= False 
while not done: 
done— True 
for i—1,2«.m: 
if y'? SignC Ow x? ) +b) x0: 
ww yx 
bb y? 


done- False 


return wb 


图 2.8 感知 器 算法 描述 


一 个 需要 回答 的 问题 是 感知 器 算法 是 否 会 终止 。 可 以 证 明 , 如 果 正 负 采 样 是 可 以 被 一 
条 分 界线 区 分 开 的 , 则 感知 器 算法 在 有 限 步 后 一 定 会 终止 。 
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图 2.9 中 的 算法 是 图 2. 8 中 感知 器 算法 的 具体 实现 。 算 法 的 第 3 行 定 义 了 一 个 
Perceptron 类 , 它 提供 两 个 成 员 函 数 : fit 与 predict, PRÉC fic 的 功能 是 训练 模型 并 存储 训练 
得 到 的 参数 ,而 函数 predict 的 功能 则 是 用 训练 好 的 模型 对 给 定数 据 进行 预测 。 这 种 算法 设 
计 机 制 是 Sklearn 机 器 学 习 工 具 库 中 算法 采用 的 机 制 。 为 了 与 该 工具 库 一 致 ,本 书 中 的 所 有 
算法 实现 都 基于 上 述 机 制 。 


machine learning.lib.perceptron 
1 import numpy as np 
2 
3 class Perceptron: 
4 def fit(self, X, y): 
5 m, n-X.shape 
6 w-np.zeros ((n,1)) 
7 b-0 
8 done- False 
9 while not done: 
10 done- True. 
1 for i in range(m): 
12 x-X i].reshape(1,- 1) 
13 if yli] * (x.dot(w)tb)«- 0: 
14 ww yli] * x.T 
15 bbt yli] 
16 done- False 
17 self.w-w 
18 self.b-b 
19 
20 def predict (self, X) 
21 retum np.sign (K.dot (self .w)+ self .b) 


图 2.9 感知 器 算法 实现 


图 2.9 中 算法 的 第 4 一 18 行 实现 fic 函数 。 第 5 行 获取 训练 数据 X 的 形状 。 其 中 ,用 疡 
表示 训练 数据 的 数目 ,用 n 表示 特征 的 个 数 。 在 本 例 中 有 mm 二 90.n 二 2。 第 6、7 行 声明 了 向 
量 w — (wi ws) 与 浮 点 数 5, 均 初 始 化 为 0. 分 别 用 于 存储 直线 方程 L:(w,x) 十 5 — 0 的 系 
数 与 偏 置 项 。 第 8 行 声明 逻辑 变量 done, 并 初始 化 为 False。 从 第 9 行 开始 ,只 要 done 的 值 
为 False, 就 循环 执行 10 一 16 行 。 第 10 行 先 将 done 的 值 设 为 True, 然 后 逐一 扫描 所 有 的 训 
练 数据 点 (x0 y? )。 如果 y? Sign (Ow x?) 4-0) 0. 则 按照 式 (2. 13) 和 式 (2. 14) 更 新 w 
与 5 的 值 ,并 将 done 的 值 改 成 False。 如 果 对 所 有 训练 数据 都 有 y” Sign( Ox?) 4-0) 
0, 则 done 的 值 就 不 会 被 改 成 False, 从 而 结束 循环 。 第 17、18 行 保存 训练 所 得 参数 w 5 b. 
第 20 行 实现 predict 函数 。 它 的 功能 是 按照 式 (2. 9) 对 给 定 测试 数据 进行 预测 。 

图 2. 10 调用 图 2. 9 中 的 感知 器 算法 来 解决 山 音 尾 问题 。 图 2. 10 中 的 算法 还 同时 展示 
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了 应 用 经 验 损 失 最 小 化 来 解决 监督 式 学 习 问 题 的 一 般 流 程 。 这 一 流程 大 致 分 为 两 部 分 : 第 
一 部 分 是 6 一 9 行 中 的 数据 处 理 , 第 二 部 分 是 11 一 13 行 中 的 模型 训练 与 测试 。 


import numpy as np 

fram sklearn import datasets 

fram sklearn.model selection import train test split 
frm machine learning.lib.perceptron import Peroeptron 


iris-datasets.load iris() 

Xc iris "data"][ :, (0,1)] 

y-2* (iris "target"]-- 0) .astype (np.int) - 1 

X train, X test, y train, y test-train test split(X, y, test. size- 0.4, 
randam state- 5) 


(0 0 - 0 00 Wn^o 


model- Perceptron () 
model.fit(X train, y train) 
model.predict(X test) 


URES 


图 2.10 调用 感知 器 算法 预测 营 尾 花 属 性 


首先 需要 导 和 一些 工具 库 。 在 第 1 行 导 入 NumPy 工具 库 。 第 2 行 从 Sklearn 工具 库 
的 数据 库 中 导入 昔 尾 花 数据 集 。 第 3 行 导 入 Sklearn 工具 库 的 数据 分 离 函 数 。 第 4 行 导 入 
图 2.9 中 的 感知 器 算法 Perceptron 类 。 

第 6 一 9 行 是 数据 处 理 部 分 。 第 6 行 读 出 营 尾 花 数据 ,第 7 行 选 出 花 划 长 与 花 葛 宽 这 两 
个 特征 。 第 8 行 生成 数据 的 标签 。 如 果 一 株 昔 尾 花 是 山 营 尾 , 则 生成 标签 十 1; 和 否则 ,生成 
一 1。 第 9 行将 数据 随机 分 成 训练 数据 与 测试 数据 两 部 分 。 这 里 用 到 工具 库 中 的 train_test 
split 函数 ,其 功能 就 是 将 数据 按 指定 比例 随机 分 成 两 部 分 。 在 本 例 中 ,60% 的 数据 作为 训 
练 数据 ,其 余 40% 作 为 测试 数据 。 由 于 数据 是 随机 分 离 的 ,所 以 可 以 认为 训练 数据 与 测试 数 
据 均 为 独立 的 数据 采样 。 

第 11 一 13 行 是 模型 训练 与 测试 部 分 。 第 11、12 行 调用 图 2.9 中 的 算法 通过 fic 函数 进 
行 模型 训练 ,输入 是 训练 数据 。 第 13 行 通过 predict 函数 进行 模型 测试 。 

图 2. 11 是 感知 器 算法 输出 的 直线 在 训练 数据 中 的 表现 。 从 图 中 可 以 看 出 它 成 功 地 分 
离 了 训练 数据 中 的 正 采样 与 负 采 样 。 

模型 虽然 在 训练 数据 上 的 预测 是 完全 正确 的 ,但 还 需要 看 其 是 否 在 测试 数据 上 也 有 好 
的 效果 。 即 对 模型 效果 的 度量 应 当 在 测试 数据 上 进行 。 在 测试 数据 上 的 准确 率 才 是 对 模型 
正确 的 度量 。 图 2. 12 是 模型 在 测试 数据 上 的 表现 。 从 图 中 可 见 , 由 于 直线 过 于 偏向 训练 数 
据 中 的 正 采样 ,导致 测试 数据 中 的 一 个 负 采 样 错误 地 位 于 直线 的 上 方 。 因 此 ,该 模型 在 测试 
数据 上 有 误差 ,其 准确 率 为 59/60A98. 3%. 

以 上 是 应 用 经 验 损失 最 小 化 算法 来 解决 监督 式 学 习 问 题 的 基本 流程 。 在 这 个 例子 中 ， 
经 验 损失 最 小 化 的 表现 形式 就 是 寻找 分 离 直 线 。 在 本 书 的 后 续 章 节 中 ,根据 不 同 的 损失 函 
数 与 模型 假设 ,将 看 到 不 同形 式 的 经 验 损失 最 小 化 算法 。 
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图 2.11 感知 器 算法 对 训练 数据 的 区 分 效果 


[2.2 


40 45 $50 55 60 65 70 75 80 
TES 
图 2.12 感知 器 算法 对 测试 数据 的 区 分 效果 


2.4 正则 化 算法 


在 经 验 损失 最 小 化 的 过 程 中 ,合理 选取 模型 假设 是 避免 过 度 拟 合 的 有 效 方法 。 当 训练 
数据 的 规模 足够 大 时 ,从 理论 上 也 可 以 保证 算法 能 将 过 度 拟 合 的 概率 控制 在 很 小 的 范围 。 
在 实际 应 用 中 ,对 训练 数据 的 规模 往往 是 有 限制 的 。 在 一 些 情 况 下 ,尽管 选取 了 模型 假设 ， 
还 是 很 有 可 能 发 生 过 度 拟 合 。 面 对 这 些 情 况 , 还 有 一 些 其 他 策略 可 以 用 于 防止 过 度 拟 合 。 

为 了 做 进一步 的 讨论 , 先 介 绍 一 个 为 物理 学 化学、 生物 学 等 自然 科学 领域 普遍 接受 的 
哲学 思想 。 有 趣 的 是 ,这 一 哲学 思想 再 一 次 在 机 器 学 习 领 域 展示 出 其 智慧 的 光辉 。 
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奥 卡 姆 剃刀 (Occamys Razor) 法 则 : 如 无 必要 , 勿 增 实体 ?。 

这 个 著名 的 法 则 是 由 14 世纪 逻辑 学 家 奥 卡 姆 的 威廉 (William of Occam) 提 出 的 。 其 中 
的 “剃刀 "表示 剃 除 不 必要 的 因素 。 下 面 介绍 奥 卡 姆 剃刀 法 则 在 机 器 学 习 中 的 具体 应 用 。 

在 机 器 学 习 问 题 中 ,模型 往往 可 以 用 有 限 个 实 参数 表示 。 下 面 的 两 个 例子 解释 了 模型 

例 2.4 每 个 元 线性 函数 h(x) 一 《w,x) 十 b,x E 恨 都 可 以 用 nn 十 1 个 实 参 数 表示 : w= 
Cu sws s w,) 5 b, 

例 2.5 一 个 nn 元 4d 次 多 项 式 模型 h 可 以 写成 

h(xzisxz2s ,Tn )= x Ue cu, sro, zy nm» e.. S d K2;15) 


ap eam emen, EZ 
ay bep <d 


其 中 ,aa sas ssa, 为 个 总 和 不 超过 d UAE SURG uu, ROTG a aa 的 系 
数 。 因 此 元 4 次 多 项 式 模型 可 以 用 [” ^ 


n 

a; d +a, d) RR 

在 后 续 的 表述 中 ,总 是 用 he 来 表示 由 w= Qus ss ,rw ) 这 组 参数 表示 的 模型 。 因 而 
可 以 将 参数 化 模型 假设 万 写成 H={h,:wER }。 

在 机 器 学 习 中 ,通常 用 参数 向 量 w 的 范 数 来 量化 模型 h, 的 复杂 度 。L; 范 数 与 L, 范 数 是 
两 类 最 常用 的 范 数 定义 。 参 数 向 量 w hL 范 数 |w| 定义 为 |w|= |z I+ [w | 十 … 十 
| zw |. La 范 数 |w| 定义 为 |w] — Ja F uid ui. 

在 机 器 学 习 中 普遍 认为 ,参数 w 的 范 数 越 小 ,模型 就 越 简 单 。 由 奥 卡 姆 剃刀 法 则 可 知 ， 
如 果 两 个 模型 在 训练 数据 上 的 经 验 损失 接近 , 则 应 该 选择 参数 范 数 较 小 的 那 一 个 。 经 验 损 
失 最 小 化 算法 中 的 正则 化 方法 正 是 这 一 思想 的 体现 。 根 据 不 同 范 数 的 选择 ,正则 化 方法 也 
不 同 。 下 面 分 别 介绍 Li 正则 化 方法 与 Le 正则 化 方法 。 

首先 来 看 L 正则 化 方法 的 经 验 损失 最 小 化 算法 ,如 图 2. 13 所 示 。 


Jos... 104 505 an € Zoo sai 十 


LL 正则 化 方法 的 经 验 损失 最 小 化 算法 
参数 化 的 模型 假设 H = (hew ER) 
输入 : 四条 训练 数据 S = (AP y ) Q9 y) v t? y) 
计算 优化 问题 的 最 优 解 w' : 

miba pi )»rAlwl 

wE 


输出 : 模型 h,* 


图 2.13 L'1 正 则 化 方法 的 经 验 损失 最 小 化 算法 


在 图 2. 13 的 正则 化 目标 函数 Ls (h,) 十 4|w| 中 ,2|w| 称 为 Li 正则 化 因子 , A PICS Li 


© 拉丁 文 原文 : Non sunt multiplicanda entia sine necessitate. 
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正则 化 系数 。 由 此 可 见 , Li 正则 化 方法 的 目标 函数 就 是 在 经 验 损失 的 基础 上 加 入 一 个 惩罚 
项 4|w|。 这样 做 可 以 产生 如 下 的 效果 : 对 于 参数 向 量 w, 每 一 个 非 零 参数 ww 都 给 目标 函数 
带 来 一 个 大 小 为 Alw;| 的 惩罚 。 因 此 ,正则 化 的 结果 就 是 引导 算法 在 工 s 的 取 值 接近 的 情况 
下 选 出 工 , 范 数 较 小 的 那个 模型 。 这 正 是 奥 卡 姆 剃刀 法 则 的 宗旨 。 

例 2.6 工 ; 正 则 化 系数 与 多 项 式 模型 。 

对 例 2. 3 中 的 10 条 训练 数据 采用 La 正则 化 方法 的 经 验 损失 最 小 化 算法 来 拟 合 模 型 。 
根据 图 2. 2(a) 的 散 点 图 , 选 定 模型 假设 为 全 体 次 数 不 超过 10 的 多 项 式 : H = (pa): pa) 一 
wo Hwt wa? +e Hw x), TE Li 正则 化 系数 4 分 别 为 0.001、0.01、0.1、0.5 时 ,得 到 
的 模型 如 图 2. 14 所 示 ( 其 拟 合 模型 的 算法 将 在 第 4 章 中 介绍 ) 。 

2.0 


1.5 
1.0 


.0 -20 
—1.00 -0.75-0.50—0.25 0.00 0.25 0.50 0.75 1.00 —1.00 -0.75-0.50—0.25 0.00 0.25 0.50 0.75 1.00 
(a) 270.001 (b) 270.01 
2.0 20 
15 1.5 
1.0 
. 
0.5 . œ * 
0.0 . 
db o. € * 
-10| 
-L5 
-2.0 
-1.00-075-050-025 0.00 0.25 0.50 0.75 1.00 —1.00—0.75-0.50-0.25 0.00 0.25 0.50 0.75 1.00 
(6) 470.1 (d) 470.5 


图 2.14 不 同 L; 正 则 化 系数 的 模型 


图 2. 14 的 结果 显示 ,在 正则 化 过 程 中 ,正则 化 系数 4 控制 正则 化 的 强度 。 它 的 选取 直 
接 影响 正则 化 的 效果 。 如 果 X — 0, 即 不 做 任何 正则 化 , 则 经 验 损失 最 小 化 算法 输出 如 
图 2. 2(b) 所 示 的 一 元 10 次 多 项 式 模型 。 而 考虑 Li 正则 化 时 , 随 着 4 的 值 的 增 大 ,模型 变 得 
越 来 越 简单 。 在 图 2.14(c) 中 , 当 4 = 0.1 时 ,正则 化 算法 输出 了 一 个 线性 模型 。 但 是 , 随 着 
4 的 继续 增 大 ,算法 输出 的 预测 函数 就 过 于 简单 ,从 而 导致 拟 合 不 足 , 即 输出 模型 在 训练 数据 
上 的 经 验 损失 过 大 。 图 2. 14(d) 中 的 正则 化 就 导致 了 拟 合 不 足 , 从 而 也 会 影响 学 习 效 果 。 
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在 机 器 学 习 应 用 中 ,一 般 没有 一 个 公式 可 用 于 确定 4 的 合适 取 值 。 算 法 设计 者 通常 需 
要 通过 实验 来 做 出 合适 的 选择 。 

Li 正则 化 方法 有 许多 优点 ,但 它 也 有 不 足 之 处 。 Li 正则 化 方法 最 显著 的 不 足 之 处 就 是 
它 使 经 验 损失 最 小 化 算法 求解 的 目标 函数 不 可 微 。 因 为 L 正则 化 因子 在 0 点 显然 不 可 微 。 
目标 函数 的 不 可 微 点 会 造成 算法 的 额外 的 计算 负担 。 正 因 如 此 , Lo 正则 化 方法 在 一 些 情况 
下 变 得 十 分 常用 。 

5 Li 正则 化 方法 类 似 , Lo 正则 化 方法 采用 的 策略 是 在 经 验 损失 的 基础 上 加 入 一 个 惩 
罚 项 |w. HFAA w 每 一 个 非 零 参数 ww 都 给 目标 函数 带 来 一 个 大 小 为 Aw? 的 惩 
罚 。 因 此 , 工 ; 正则 化 方法 会 引导 算法 在 经 验 损失 取 值 接近 的 情况 下 选 出 La 范 数 较 小 的 那 
个 预测 函数 。 图 2.15 描述 了 La 正则 化 方法 的 经 验 损失 最 小 化 算法 。 


工 正 则 化 方法 的 经 验 损失 最 小 化 算法 
参数 化 的 模型 假设 H = (hw ER} 
输入 : m 条 训练 数据 S = (Oc? y 0G? y ) e Qc Ly )] 
计算 优化 问题 的 最 优 解 w”: 
minLs (hs )+24 | w|* 
vex" 


输出 : 模型 h,* 


图 2.15 Lz 正则 化 方法 的 经 验 损失 最 小 化 算法 


例 2.7 L 正则 化 系数 与 多 项 式 模型 。 

对 例 2. 3 中 的 10 条 训练 数据 采用 Lo 正则 化 方法 的 经 验 损 失 最 小 化 算法 拟 合 模 型 。 在 
L: 正则 化 系数 分 别 为 0.01、0.1、10、100 时 ,得 到 的 模型 如 图 2. 16 所 示 ( 其 拟 合 模型 的 算 
法 将 在 第 3 章 介 绍 ) 。 


.0 
—1.00-0.75-0.50 -0.25 0.00 0.25 0.50 0.75 1.00 -1.00 -0.75-0.50 —0.25 0.00 0.25 0.50 0.75 1.00 
(a) 470.01 (b) 270.1 
图 2.16 不 同 Lz 正 则 化 系数 的 模型 
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2.0 
1.5 

1.0 . 
0.5 . ? z 
0.0 

ds e 

ae * 

-15 


0 ————————1 -20 
—1.00-0.75-0.50 -0.25 0.00 0.25 0.50 0.75 1.00 -1.00-0.75-0.80 -0.25 0.00 0.25 0.50 0.75 1.00 
(e) à-10 (d) 2-100 
图 2.16 ( 续 ) 


对 比 图 2. 14, 在 图 2. 16 中 随 着 正则 化 强度 的 增 大 , Lo 正则 化 方法 并 没有 像 Li 正则 化 
方法 那样 降低 模型 多 项 式 的 次 数 ,而 是 输出 越 来 越 平 滑 的 多 项 式 模 型 。 这 正 是 Le 正则 化 方 
法 与 L, 正则 化 方法 的 本 质 区 别 。 随 着 正则 化 强度 的 增 大 , Li 正则 化 方法 引导 算法 将 参数 
分 量 逐 个 降 为 0, 而 工 ; 正则 化 方法 引导 算法 均匀 地 减 小 各 参数 分 量 。 在 例 2.6 P, Li 正则 
化 方法 将 多 项 式 的 高 次 项 系数 降 为 0, 从 而 导致 了 降低 模型 次 数 的 效果 。 而 L 正则 化 方法 
均匀 地 减 小 模型 多 项 式 的 各 项 系数 ,由 此 产生 的 效果 是 增加 了 模型 的 平滑 度 。 

下 面 从 理论 上 解释 L, 正则 化 方法 与 L. 正则 化 方法 的 这 一 根本 区 别 。 在 此 之 前 ,需要 
介绍 正则 化 的 一 个 等 价 定义 。 最 原始 的 正则 化 思想 是 对 参数 范 数 进行 约束 。 以 Li 正则 化 
方法 为 例 , 考 察 如 下 带 约束 的 经 验 损失 最 小 化 算法 : 

min Ls (hw) 
约束 : Iw|<R 
其 中 , R 是 一 个 取 定 的 常数 。 在 式 (2. 16) 的 优化 问题 中 ,目标 函数 仍 为 经 验 损失 ,但 是 附带 
了 一 个 约束 条 件 : 参数 的 Li 范 数 必须 不 超过 常数 R。 

式 (2.16) 是 一 个 带 约束 的 优化 问题 。 根 据 带 约束 优化 问题 的 对 偶 理 论 ( 见 附录 A) , 必 

定 存在 拉 格 朗 日 乘 子 > 0, 使 得 式 (2. 16) 中 的 带 约束 优化 问题 与 无 约束 优化 问题 

min Ls (h,)-A | w | (2:279 
有 完全 相同 的 最 优 解 。 因 此 ,如 果 选 取 合 适 的 正则 化 系数 4, 图 2. 13 中 的 L 正则 化 方法 的 
经 验 损失 最 小 化 算法 与 式 (2. 16) 中 带 约束 的 优化 问题 是 等 价 的 。 

类 似 地 ,图 2. 15 中 的 Lo 正则 化 方法 的 经 验 损 失 最 小 化 算法 等 价 于 如 下 带 约 东 的 优化 
问题 : 


(2. 16) 


min Ls (h,) 
约束 : lwl? < R? 

对 比 式 (2. 16) 与 式 (2. 18) 的 约束 条 件 , 在 二 维 情形 可 以 直观 地 看 到 它们 的 区 别 。 

图 2. 17(a) 是 式 (2. 16) 中 的 约束 条 件 对 应 的 区 域 。 图 2. 17(b) 是 式 (2. 18) 中 的 约束 条 


(2. 18) 
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件 对 应 的 区 域 。 从 图 2. 17 中 可 以 看 到 , Li 正则 化 方法 的 经 验 损失 最 小 化 算法 的 可 行 解 区 
域 为 多 面体 ,而 Le 正则 化 方法 的 经 验 损失 最 小 化 算法 的 可 行 解 区 域 为 球体 。 在 优化 理论 
中 ,如 果 限制 区 域 是 多 面体 , 则 目标 函数 的 最 优 解 往往 在 多 面体 的 项 点 处 达到 ;而 如 果 区 域 
是 球体 , 则 球面 上 的 点 均 有 可 能 是 最 优 解 。 在 La 正则 化 方法 的 经 验 损失 最 小 化 算法 所 对 应 
的 多 面体 中 ,顶点 均 为 某 些 分 量 为 0 的 点 。 这 就 是 Li 正则 化 方法 引导 经 验 损 失 最 小 化 算法 
将 参数 分 量 降 为 0 的 根本 原因 。 


(a) (b) 
图 2.17 /上 ! 与 Lz 正 则 化 方法 的 经 验 损失 最 小 化 算法 的 可 行 解 区 域 


在 实际 应 用 中 , Li 正则 化 方法 的 经 验 损失 最 小 化 算法 与 工 ; 正则 化 方法 的 经 验 损失 最 
小 化 算法 各 有 其 适合 的 应 用 场合 。 Li 正则 化 方法 的 经 验 损失 最 小 化 算法 多 用 于 特征 选择 ， 
而 Le 正则 化 方法 的 经 验 损失 最 小 化 算法 则 多 用 于 增加 模型 稳定 性 。 正 则 化 方法 的 经 验 损 
失 最 小 化 算法 是 一 类 启发 式 算法 ,一 般 情 况 下 其 效果 并 没有 理论 上 的 保证 。 但 是 ,由 于 奥 卡 
姆 剃刀 法 则 的 作用 ,正则 化 方法 的 经 验 损失 最 小 化 算法 在 实际 应 用 中 大 大 降低 了 过 度 拟 合 
的 概率 ,因此 得 到 了 机 器 学 习 工 作者 的 普遍 认同 。 

在 机 器 学 习 中 ,也 将 带 有 正则 化 方法 的 经 验 损失 最 小 化 算法 称 为 结构 损失 最 小 化 算法 。 
每 一 个 经 验 损失 最 小 化 算法 都 可 以 通过 正则 化 方法 转化 成 结构 损失 最 小 化 算法 。 在 第 3 章 
中 将 以 线性 回归 算法 为 例 具体 介绍 正则 化 方法 。 在 其 后 各 章 中 都 只 介绍 经 验 损失 的 优化 方 
法 ,不 再 对 其 正则 化 方法 做 专门 叙述 。 


小 结 


本 章 对 监督 式 学 习 的 基本 概念 做 了 详细 介绍 ,包括 特征 标签、 模型 与 损失 函数 等 贯穿 
全 书 的 重要 概念 。 随 后 介绍 了 经 验 损失 最 小 化 这 个 一 般 性 的 监督 式 学 习 算 法 架构 。 选 定 损 
失 函 数 以 及 模型 假设 ,用 经 验 损失 最 小 化 算法 选 出 模型 假设 中 在 训练 数据 上 平均 损失 最 小 
的 模型 。 根 据 概率 论 知 识 , 当 训练 数据 的 规模 足够 大 时 ,平均 损失 能 够 良好 地 近似 期 望 损 
失 。 本 书 中 的 所 有 监督 式 学 习 算法 ,包括 线性 回归 、Logistic 回归 ,支持 向 量 机 、 决 策 树 、 神 经 
网 路 等 算法 均 为 经 验 损失 最 小 化 算法 在 相应 问题 中 的 具体 表现 。 

本 章 还 通过 高 尾 花 属 种 预测 问题 展示 了 经 验 损失 最 小 化 算法 的 实现 流程 。 在 该 问题 
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中 ,最 小 化 经 验 损 失 等 价 于 寻找 分 离 直 线 ,而 感知 器 算法 正 是 一 个 寻找 分 离 直 线 的 几何 算 
法 。 因 此 ,在 这 个 例子 中 ,感知 器 算法 就 是 经 验 误差 最 小 化 算法 的 具体 表现 。 

本 章 最 后 介绍 了 过 度 拟 合 的 概念 以 及 处 理 过 度 拟 合 的 常用 策略 一 一 正则 化 算法 。 在 后 
续 各 章 中 的 每 一 个 监督 式 学 习 算法 都 可 以 进行 正则 化 ,因此 在 本 章 中 做 了 统一 介绍 。 本 章 
探讨 了 两 类 不 同 的 正则 化 方法 : Li 正则 化 方法 与 L; 正则 化 方法 ,并 根据 带 约束 优化 问题 中 
的 对 偶 理论 揭示 了 两 者 的 本 质 区 别 。 第 3 章 将 具体 结合 线性 回归 算法 来 介绍 正则 化 方法 的 
实现 与 应 用 。 


习题 


2.1 本 章 中 介绍 了 高 尾 花 属 种 预测 问题 。 实 际 上 完整 的 蓄 尾 花 属 种 预测 问题 是 一 
三 元 分 类 问题 。 它 的 任务 是 根据 一 株 蓄 尾 花 的 花 葛 长 , 花 蔓 宽 , 花 瓣 长 . 花 辩 宽 这 4 个 特征 
来 预测 营 尾 花 的 属 种 。 它 可 能 是 山 音 尾 . 变 色 音 尾 与 弗吉尼亚 车 尾 中 的 一 种 。 表 2.1 是 5 
条 数据 样本 ,请 描述 这 5 条 数据 对 应 的 特征 与 标签 。 

2.2 考察 平面 上 的 3 个 点 : (0,1)、(1,1) 5 (2.3). 

CD 请 计算 一 个 能 够 完美 拟 合 这 3 个 点 的 2 次 多 项 式 。 

(2) 在 线性 模型 假设 H = (hu (0 = wx 十 b:w ER b E 难 中 ,假定 损失 函数 为 例 2. 2 中 
的 平方 损失 函数 ,请 写 出 在 训练 数据 S 二 {(0,1),(1,1),(2,3)} 上 的 经 验 损失 最 小 化 算法 的 
目标 函数 ,并 计算 出 最 优 的 线性 模型 参数 值 。 

2.3 ”证明 式 (2.15) 所 示 的 nn 元 d 次 多 项 式 模型 


ma = (hGn zie m) — EE CICER TI } 


pepe EZ 0 
eH nt "+a, <d 
可 以 用 (^14) 个 实 参数 来 表示 。 
2.4 考察 优化 问题 
min. (wi — wj —1)? 


请 写 出 它 的 以 — 2 为 系数 的 Le 正则 化 算法 的 目标 函数 ,并 计算 该 目标 函数 的 最 优 解 。 
2.5 经 验 损失 与 期 望 损失 。 
在 一 个 监督 式 学 习 问 题 中 ,给 定 取 值 在 [0,1] 区 间 内 的 损失 函数 1 以 及 训练 数据 S = 
(Qc? Ly ) Q9? y? ) x Ly? )), 请 用 Hoeffding 不 等 式 ( 附 录 A 的 定理 A.4.5) 证 
明 如 下 结论 : 对 任意 6,6 — 0. 当 训 练 数据 的 个 数 m 满足 


1 
m> ò 
gt 
对 任意 模型 hn 有 Pr( [Ls (h)— Lp(h) | 77 €) & ò. xx — 4 ie vEBH . 24 IL ADOS B8) HUE E E 
时 ,经 验 损失 是 期 望 损失 的 良好 近似 。 
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注 : 本 书 若 无 特 殊 说 明 ,所 有 对 数 均 以 2 为 底 。 

2.6 和 拢 形 分 类 问题 。 

在 矩形 分 类 问题 中 ,样本 空间 是 R, 即 全 体 平 面 上 的 点 x — (ziyzs)。 标 签 由 如 下 的 矩 
形 函 数 /acp: 亚 一 {0,1) 给 出 : 

1; 四 BEC mn AD 

一 1， 其 余 情况 
可 以 看 到 ,在 和 矩形 (xix) :A n m BEHOC man 
< D) 内 部 的 点 带 有 十 1 标签 ,其 余 的 点 带 有 一 1 标签 ， 
如 图 2. 18 所 示 。 

任意 一 个 矩形 函数 都 可 以 用 4 个 实 参数 A、.B、C、 
DRR. WE 0-1 损失 函数 ,并 取 定 模型 假设 H = 
Ufa :A < B.C < D) 为 全 体 和 矩形 函数 。 

(1) 考察 下 面 的 算法 : 输出 包含 所 有 训练 数据 中 
带 十 1 标签 的 点 的 最 小 矩形 。 请 证 明 这 一 算法 是 一 个 
经 验 损 失 最 小 化 算法 。 图 2.18 和 矩形 分 类 问题 


(2) 试 证 明 ; 当 训练 数据 规模 m > FEUD 时 ,上 


面 (1) 中 的 算法 以 至 少 1 一 6 的 概率 输出 一 个 期 望 损失 不 超过 e 的 模型 。 

(3) 请 将 前 两 小 题 的 结论 推广 到 一 般 的 a 维 空间 。 

2.7 感知 器 算法 的 有 限 性 。 

本 题 要 求 分 步 证 明 : 如 果 正 负 采 样 可 以 被 一 条 直线 分 离 , 则 感知 器 算法 在 有 限 步 后 一 
定 会 终止 。 给 定 训练 数据 S — (Ox? y) Q9 Ly? ) A Ly), E y — Qw' ,x) 十 b 
是 一 条 分 离 直线 ,并 设 感知 器 算法 的 第 上 步 得 到 的 直线 方程 为 > = (wo ,x) HP. 

(1) 请 证 明 (ww?) > (ww) 4-1. 

(2) 请 根据 (1) 中 的 结论 证 明 (w^ ,we ) >t 

(3) BER = max [x^ |, WEB [we < [w |? Rm. 


(4) 请 根据 (3) 中 的 结论 证 明 [we |< YR。 
(5) 设 感知 器 算法 运行 到 第 工 步 ,请 结合 以 上 结论 ,证 明 


FA. p.c (i x2 ) = 


X, 


. (TH JT 
Te Ti] Te TR 

C6) 请 根据 上 述 (5) 中 的 结论 AAA REREH T — |w |:R’, 换 句 话说 ,感知 器 算 
法 在 |w PR 步 之 后 必然 停止 。 

2.8 墨 渍 分 类 问题 。 

在 平面 上 有 两 摊 墨 渍 ,它们 的 颜色 分 别 是 黄色 与 蓝 色 。 墨 渍 分 类 问题 的 任务 是 根据 点 
的 坐标 判断 其 染 上 的 墨 渍 的 颜色 。 

墨 渍 分 类 问题 的 数据 集 已 经 集成 在 Sklearn 的 数据 库 中 。 数 据 集 的 每 条 数据 都 是 平面 
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上 的 一 个 点 。 特 征 组 为 该 点 的 坐标 。 标 签 为 该 点 被 染 成 的 颜色 ,0 表示 黄色 ,1 表示 蓝 色 。 
图 2. 19 是 100 条 数据 采样 。 


Sas QUEM CH di 

a A a 

al 

3 TEP 

i Cd m f i 
Ee“ mrd ut, 

0 » 'a . 


-0.5 00 05 10 15 20 25 
图 2.19 墨 渍 分 类 的 数据 采样 


图 2. 20 是 获取 数据 与 观察 数据 的 程序 。 请 基于 图 2. 20 中 的 程序 ,用 感知 器 算法 来 解 
决 墨 渍 分 类 问题 。 


fram sklearn.datasets.samples generator import make blobs 
inport matplotlib.pyplot as plt 


X, y- make blobs (n samples- 100, centers- 2, n features-2, 
cluster std- 0.6, random state- 0) 


plt.plot( :, Ol y-- 1], X :, 1] y-- 1), "bs", ms- 3) 
pit.plot (4 :, O][y-- 0], x :, 1] y-- 0], "yo", ms- 3) 
plt.show() 


€ Oo - O0 OQ» Qmd 


图 2.20 获取 与 观察 墨 渍 分 类 数据 的 程序 
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线性 回归 算法 是 解决 监督 式 学 习 中 回归 问题 的 重要 算法 。 它 是 模型 假设 为 线性 模型 的 
经 验 损失 最 小 化 算法 。 第 2 章 已 经 对 一 般 的 经 验 损 失 最 小 化 算法 架构 做 了 介绍 ,本 章 将 在 
此 基础 上 详细 介绍 线性 回归 算法 的 相关 知识 。 

为 什么 线性 回归 算法 要 选择 均 方 误差 作为 目标 函数 ? 什么 是 正规 方程 ? 如 何 将 线性 回 
归 算 法 推广 应 用 到 非 线性 问题 上 ? 正则 化 方法 会 怎样 影响 线性 回归 的 结果 ? 这 些 都 是 本 章 
要 解决 的 问题 。 对 这 些 问 题 的 深刻 理解 有 助 于 在 算法 层面 准确 把 握 线性 回归 的 实质 ,并 在 
实际 应 用 中 灵活 选用 恰到好处 的 回归 模型 与 算法 。 

3. 1 节 对 线性 回归 做 入 门 性 介绍 ,并 阐述 线性 回归 算法 中 目标 函数 的 几何 与 统计 意义 。 
3. 2 节 讲 述 线性 回归 的 优化 算法 一 一 正规 方程 算法 。3. 3 节 介 绍 多 项 式 回归 , 它 是 线性 回归 
在 非 线性 数据 上 的 推广 。3.4 节 介 绍 岭 回归 、Lasso 回归 与 弹性 网 回归 ,它们 是 线性 回归 的 
正则 化 算法 实现 。3. 5 节 介 绍 线性 回归 的 特征 选择 算法 ,涵盖 了 逐步 回归 与 分 段 回归 这 两 


3.1 线性 回归 基本 概念 


在 许多 实际 问题 中 ,对 象 的 特征 组 与 其 标签 之 间 存 在 一 定 的 关系 。 例 如 ,在 第 1 章 的 房 
价 预 测 问题 中 ,一 个 地 区 的 房价 与 该 地 区 的 地 理 位 置 、 人 口 数 . 居 民 收 入 等 诸多 特征 有 着 密 
切 的 关系 。 在 监督 式 学 习 中 .这 种 关系 就 称 为 回归 关系 。 如 果 特 征 与 标签 之 间 的 关系 是 近 
似 线性 的 ,就 可 以 用 一 个 线性 模型 来 拟 合 这 种 回归 关系 。 用 线性 模型 来 拟 合 特征 组 与 标签 
之 间 回 归 关 系 的 方法 就 称 为 线性 回归 。 
机 器 学 习 中 将 一 个 形 如 
As(x) 一 (wx) 十 0 C3. 1) 
的 Ie — 耻 的 函数 称 为 一 个 线性 模型 。 式 (3. DP, wx CR 均 为 n 维 向 量 , b € FOR fi ECT 


EZS 
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(wx) 表示 w 与 x AE, Kn = 1 时 ,线性 模型 表示 一 条 直线 ; 当 n — 2 时 ,表示 一 个 平 
H n 三 3 时 ,表示 nn 维 空 间 中 的 超 平面 。 

在 监督 式 学 习 中 ,将 求解 线性 回归 模型 中 参数 的 问题 称 为 线性 回归 问题 。 例 如 ,用 式 
(3. 1) 的 线性 模型 来 拟 合 房价 与 地 理 位 置 、 人 口 数 、 居 民 收 入 等 特征 的 关系 。 求 解 出 恰当 的 
参数 w Hb, 使 得 式 (3. 1) 的 线性 模型 可 以 用 来 合理 地 预测 房价 ,这 就 是 一 个 具体 的 线性 回 
归 问 题 。 求 解 线性 回归 问题 的 算法 统称 为 线性 回归 算法 。 

在 一 般 情 况 下 ,线性 回归 算法 实际 上 是 一 个 经 验 损失 最 小 化 算法 。 其 模型 假设 为 线性 
模型 ,损失 函数 为 平方 损失 函数 。 依 照例 2. 2 中 平方 损失 函数 的 定义 ,关于 数据 (xy) 模 
W h 的 平方 损失 为 (h(x) 一 y)*。 图 3.1 给 出 了 线性 回归 算法 的 描述 。 


线性 回归 算法 

样本 空间 XS 到 

输入 : m 条 训练 数据 S = {Cx 1) Gi? 19) ee Qm Ly) 
输出 : 线性 模型 h,*,,* (x)= OO ,x) 十 b” ,使 得 w” 0” 为 优化 问题 


min LY) wHo yt Y? 
weg ocn Tt i-i 


的 最 优 解 。 


图 3.1 线性 回归 算法 描述 
定义 3.1( 均 方 误差 ) 将 图 3. 1 中 的 线性 回归 目标 函数 


l» (Or x?) 4-5 — y? )? (3.2) 
i=l 
称 为 均 方 误差 。 
首先 解释 均 方 误差 的 几何 意义 。 为 此 沿用 第 2 章 中 例 2. 3 的 问题 。 在 该 问题 中 , 设 样 
本 空间 为 X = [一 1,1], FE DAX 上 的 均匀 分 布 。 设 对 任意 给 定 x € X. 标签 分 布 
D, — N(x.0.3) 是 期 望 为 x 且 标 准 差 为 0.3 的 正 态 分 布 。 图 3.2 是 100 条 训练 数据 采样 的 


-2.0 
21.00 -0.75 -0.50 -0.25 0.00 025 0.50 0.75 1.00 
图 3.2 100 条 训练 数据 的 散 点 图 
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在 几何 学 中 ,将 一 个 点 书 与 一 条 直线 工 之 间 纵 向 距离 d 的 平方 称 为 直线 工 对 P 点 的 拟 
合 误差 .P SUL 的 纵向 距离 为 P 在 L 上 沿 纵 轴 方向 的 投影 点 Q 与 P 之 间 的 距离 ,如 图 3. 3 
所 示 。 


» 


拟 合 误差 =d? 


3.8 点 尸 的 拟 合 误差 


一 个 点 的 拟 合 误差 越 小 ,表明 该 点 越 靠近 直线 。 因 此 ,如 果 要 在 图 3. 2 中 用 一 条 直线 拟 
合 全 部 散 点 , 则 具有 最 小 的 平均 拟 合 误差 的 直线 能 最 大 程度 地 拟 合 散 点 的 分 布 趋势 。 线 性 
回归 算法 就 是 寻找 满足 散 点 的 平均 拟 合 误差 最 小 的 那 条 直线 。 

设 GrP Ly). Qe y? ) uen. Ge V y) 为 训练 数据 点 , 且 要 寻找 的 直线 的 方程 为 
y 二 wr 十 和。 训练 数据 点 (z2 «y? ) 到 工 的 纵向 距离 为 4 = |wzx 4-6 — y? | ,因而 拟 合 误 
288 (w xf? 十 b 一 y”)*。 这 m 条 训练 数据 点 的 平均 拟 合 误 差 正 是 式 (3.2) 所 定义 的 均 方 误 
差 。 这 就 是 均 方 误差 的 几何 意义 。 通 过 优化 均 方 误差 ,线性 回归 算法 可 以 得 到 图 3.4 所 示 
的 直线 。 图 3. 4 显示 出 大 多 数 的 散 点 是 靠近 直线 的 ,说 明 该 直线 很 好 地 拟 合 了 散 点 的 分 布 
趋势 。 


-2.0 Tr Tr T T - - - 
-1.00 -0.75 -0.50 -025 0.00 025 0.50 0.75 1.00 
图 3.4 线性 回归 拟 合 训练 数据 


接 下 来 分 析 均 方 误 差 的 统计 意义 。 在 此 之 前 , 先 介绍 一 个 统计 学 的 重要 思想 一 一 最 大 


40 


Ọ 
9, 


线性 回归 算法 | 


似 然 原则 。 在 概率 统计 中 ,最 大 似 然 原则 适用 于 如 下 场合 : 基于 一 组 随机 变量 取 值 采样 ,从 
一 族 参 数 化 的 概率 分 布 中 选取 一 个 最 有 可 能 产生 该 组 采样 的 概率 分 布 。 具 体 来 说 , 设 P = 
{beiw € Ry 是 一 族 参 数 化 的 概率 分 布 。 其 中 ,每 一 个 参数 值 w 都 对 应 于 一 个 概率 分 布 函 
数 p,。 设 Y 是 一 个 随机 变量 ,并 且 已 知 存 在 w” 使 得 Y 的 概率 分 布 为 pb。 ,但 是 w” 的 值 是 
未 知 的。 在 随机 取得 Y 的 m 个 独立 采样 > ey? en y 后 ,要 根据 这 m 个 采样 推断 w* 
的 值 。 

定义 3.2( 似 然 函数 ) 给 定 随机 变量 Y, 定义 


Like(w | y? y? y )— [[ 54v = y?) (3.3) 
i=l 


28 Y fl m 个 独立 采样 惟 为 y ey? ,3 的 概率 , 称 其 为 概率 分 布 pe 关于 yy? ens 
y. 的 似 然 函 数 。 

以 下 是 概率 统计 中 的 最 大 似 然 原则 : 如 果 y y? vy 为 工 的 产 个 独立 采样 ,而 
w” 是 使 得 似 然 函 数 最 大 化 的 一 组 参数 , 即 


w' = argmax Like(w | y” , y? se, y? ) (3.4) 
weg 


则 可 以 断定 Y 的 概率 分 布 是 p。 。 

例 3.1 给 定 一 枚 正 反 面 质量 可 能 不 同 的 硬币 。 设 Y 为 如 下 的 随机 变量 : 若 抛 出 硬币 
正面 朝 上 , 则 了 = 1; BU, Y= 0, P= {ps:0 三 w 达 1} 是 一 族 参 数 化 的 概率 分 布 ,其 中 
ba (Y = 1) — w., 设 抛 出 3 次 硬币 。 如 果 3 次 抛 硬币 的 结果 分 别 为 正 \ 正 、 反 , 则 似 然 函数 为 

Like(w | EER ) — w (1 一 w) (3.5) 

通过 对 式 (3.5) 求 导 可 以 算出 , 取 ww” 二 2/3 时 , 似 然 函数 的 值 达到 最 大 。 根 据 最 大 似 然 
原则 ,可 以 推断 硬币 出 现 正面 的 概率 为 2/3。 

第 2 章 的 定义 2. 6 给 出 了 监督 式 学 习 任 务 的 完整 定义 。 对 任意 样本 x, 都 可 以 认为 其 
标签 y 是 一 个 分 布 为 D; 的 随机 变量 。 监 督 式 学 习 的 模型 是 预测 该 随机 变量 的 期 户 
EE,~p, [v] 。 在 线性 回归 中 ,有 一 个 对 标签 分 布 的 基本 假设 。 也 就 是 说 ,对 任意 样本 x. 标签 
分 布 D. 都 是 一 个 正 态 分 布 。 因 此 ,如 果 模型 bws (x) — On 十 0 为 标签 的 期 望 , 则 D, = 
N (hy (c) 0) « 其 中 标准 差 o 为 一 个 常数 。 为 了 简化 记号 ,不 妨 假设 c — 1。 所 以 ,标签 分 布 
属于 参数 化 的 概率 分 布 族 

P = {N (hes (x):1) ER ,b € B) (3.6) 
从 而 可 用 最 大 似 然 原则 来 推断 标签 分 布 对 应 的 参数 。 
根据 定义 3.2, 参 数 为 w 的 分 布 N (hws (x) 0) y «y? enm y. 的 似 然 函 数 为 
Likeçwsb | y? ens TE "x eC) (3.7) 
式 (3.7) 中 的 似 然 函 数 与 均 方 误差 之 间 有 以 下 的 关系 : 


argmaxLike (w.b | yP y? yy )— argmin LS) ajr — (3.8) 
式 (3.8) 可 推导 如 下 : 对 式 (3.7) 的 似 然 函 数 取 对 数 ,可 将 乘积 转化 为 更 简单 的 和 式 , 即 
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log Like(w.5 | y? y? ,---, y" ) — m log 


T — »» Chea (x? )— y? )) (3.9) 
最 大 化 似 然 函 数 等 价 于 最 大 化 似 然 函数 的 对 数 , 即 最 大 化 式 (3. 9) 等 式 的 右 端 。 这 等 价 于 最 
小 化 


A aP 

这 恰 为 均 方 误差 。 由 此 说 明了 均 方 误差 的 统计 学 意义 。 

为 了 简化 算法 描述 中 的 记号 ,将 线性 回归 中 的 维 向 量 x 的 首位 之 前 增补 一 个 常数 1， 
使 其 成 为 一 个 n 十 1 HEISE x. Bx — (1,x)。 对 w ER ,b ER WR w — (bw) ER", 
W hu (x) (wx) 十 b — (W, x». Bl. THRHR A3 Jg ll F"SEUCOUESX : 

H-—íhg(X)—(W,X);w ER”) (3. 10) 

在 本 章 中 ,如 没有 特别 说 明 , 线 性 回归 中 的 样本 均 为 首位 为 1 的 向 量 ,并 用 表示 样本 
的 维 数 , 即 n 等 于 实际 特征 数 加 1, 从 而 模型 假设 为 n 元 齐 次 线性 函数 。 由 此 可 以 将 经 过 记 
号 简化 的 线性 回归 问题 表述 如 图 3.5 所 示 。 


线性 回归 算法 (简化 记号 ) 
EESE XCR, 每 个 样本 x EX 首位 是 1 
MA: m 条 训练 数据 S = (Gl Ly) Q9 Ly ) ,Cx Ly) 
输出 : HRPEBUS h (x) — Ov! x), 使 得 w” 为 优化 问题 
nin L3 Cv. ax) — y)? 


的 最 优 解 


图 3.5 简化 记号 的 线性 回归 算法 


由 于 均 方 误差 是 线性 回归 问题 的 目标 函数 ,因此 均 方 误差 本 身 就 可 以 作为 算法 效果 的 
度量 。 均 方 误差 越 小 ,建立 的 预测 模型 拟 合 效果 越 好 。 但 是 ,判断 均 方 误差 的 大 小 尚 缺少 一 
个 对 比 的 标尺 ,因而 它 不 适用 于 直观 判断 建立 的 预测 模型 的 拟 合 效果 。 例 如 ,对 图 3. 2 的 数 
据 , 用 线性 回归 拟 合 直线 方程 时 ,得 到 的 均 方 误差 是 0. 09。 由 于 不 能 判断 这 个 数字 是 否 较 
小 ,因此 难以 判断 模型 的 拟 合 效果 。 为 了 能 够 直观 度量 模型 效果 ,需要 为 均 方 误差 设 定 标 
尺 。 由 此 引出 决定 系数 的 概念 。 决 定 系数 是 一 个 判断 预测 模型 拟 合 效果 的 重要 指标 , 它 的 
定义 如 下 。 


定义 3.3( 决 定 系数 ) 设 了 一 LY 9 为 训练 数据 标签 平 均值 ,定义 


Saey 
R =1— += (3.11) 


2 3—y°) 
ici 


为 模型 h 的 决定 系数 。 
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从 式 (3.11) 可 知 ,在 决定 系数 中 ， 
=) (G3?) (3.12) 


可 用 作 均 方 误差 的 标尺 。 以 下 叙述 以 式 (3. 12) 作 为 均 方 误差 标尺 的 依据 。 
图 3. 6 中 的 平均 值 模型 hw 以 训练 数据 中 标签 的 平均 值 作为 任意 样本 的 标签 预测 , 式 
(3. 12) 是 平均 值 模型 的 均 方 误差 。 


平均 值 模型 
输入 : m 条 训练 数据 S = (G9 Ly) AP Ly? ,x Ly) 


输出 : 计算 了 一 十 yo ,输出 常数 模型 he， 其 中 hn (x) 一 了 ,Vx EX 


图 3.6 平均 值 模型 


根据 概率 论 中 的 Hoeffding 不 等 式 , 当 训练 数据 的 数量 m 足够 大 时 , hs 的 输出 近似 于 
下 ~p [E,~p, [y] ] 但 实际 上 是 需要 对 给 定 的 特征 x 预测 相应 的 已 -mw y] o 平均 值 模型 hs 
虽然 具有 一 定 的 预测 能 力 ,但 由 于 它 只 利用 了 训练 数据 的 标签 而 忽略 了 特征 ,所 以 其 预测 能 
力 是 有 限 的 。 因 此 ,可 以 将 平均 值 模型 hs 的 均 方 误差 作为 其 他 模型 拟 合 效果 度量 的 参考 
标尺 。 如 果 一 个 模型 的 均 方 误差 接近 /uv 的 均 方 误差 ,那么 这 个 模型 的 拟 合 效果 就 不 甚 理 
想 。 此 时 , R? 0。 如果 一 个 模型 的 均 方 误差 远 小 于 /uv 的 均 方 误差 ,那么 这 个 模型 的 拟 合 
效果 就 比较 理想 。 此 时 , R? 兰 1。 由 此 可 见 , 决 定 系 数 尺 -的 取 值 直观 地 反映 了 模型 的 拟 合 效 
JE. R? 值 越 接近 1 ,模型 的 拟 合 效 果 越 好 。 

在 后 续 的 线性 回归 算法 实践 中 ,都 同时 以 均 方 误差 和 决定 系数 R? 来 度量 模型 的 拟 合 
效果 。 


3.2 线性 回归 优化 算法 


本 节 介 绍 线性 回归 的 优化 算法 一 一 正规 方程 算法 。 正 规 方程 算法 也 称 为 最 小 二 乘法 。 
正规 方程 算法 的 理论 依据 是 凸 优化 理论 ( 见 附录 AD. 
定理 3.1 线性 回归 的 均 方 误差 


FO» - L5 (way — y y (3.13) 
i=l 


是 一 个 关于 w 的 可 微 凸 函数 ,从 而 线性 回归 问题 是 一 个 凸 优化 问题 。 

WEBB. 在 式 (3. 13) 中 ,线性 函数 (w,xe ) 一 y 是 关于 w 的 凸 函 数 。 因 为 二 次 函数 为 递 
增 凸 函数 ,所 以 根据 复合 函数 的 凸 性 判定 法 则 (附录 A 引 理 A. 3.3) 可 知 , (Ow x?) — y? )* 
也 是 一 个 凸 函 数 。 从 而 均 方 误差 是 凸 函 数 。 

由 于 线性 回归 是 凸 优化 问题 ,因此 线性 回归 有 唯一 最 优 值 (附录 A 定理 A. 3. 4) 。 根 据 
最 优 解 的 判定 准则 : w ER 最 小 化 均 方 误差 F(w) 的 充分 必要 条 件 为 梯度 VF(w) = 0 (附录 
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A 定理 A. 3.6)。 由 此 可 知 ,正规 方程 算法 就 是 最 优 解 判定 准则 在 线性 回归 中 的 具体 实现 。 

在 描述 正规 方程 之 前 ,首先 介绍 有 关 术 语 。 设 在 一 个 线性 回归 问题 中 有 m 条 训练 数据 
S — (Gt? y) Ge? yP ) e LO Ly), 其 中 ,每 一 个 x® 均 为 n 维 向 量 , 且 首 位 为 1。 
EX X 5 y 为 如 下 矩阵 ; 


可 见 , XX 是 一 个 m Xn 矩阵, y J&— m x 1 列 向 量 。X 称 为 特征 矩阵 ,，y 称 为 标签 向 量 。 基 
于 这 个 定义 ,线性 回归 算法 的 目标 函数 等 价 于 


min F(w) = |Xw — y|? (3.14) 
weg 


ERG. 14) 的 目标 函数 中 , w 为 nX1 列 向 量 , Xw EERE., HFX JÉ— m Xn 
阵 , 所 以 Xw 是 一 个 mX1 列 向 量 。 因而, Xw — y 也 是 一 个 m X1 列 向 量 。 目 标 函 数 F(w) 为 
该 列 向 量 的 Le 范 数 平方 。 

定理 3.2 XX 为 可 逆 矩 阵 , 则 式 (3. 14) 有 唯一 最 优 解 


w = (X'X)" X'y (3.15) 
证 明 : 由 于 VF(w) — 2 X Xw —2 X" y. 所 以 w* 为 最 优 解 当 且 仅 当 w* 满足 如 下 的 方程 : 
2 XTXw 一 2XTy 一 0 (3.16) 


方程 (3. 16) 也 称 为 正规 方程 。 在 XT X niit ,该 方程 有 唯一 解 w” = (XT X)! Xy. 

正规 方程 算法 的 实现 如 图 3.7 所 示 。 在 图 3.7 中 ,第 3 行 定义 类 LinearRegression。 在 
LinearRegression 类 中 ,第 4,5 行 实现 模型 训练 的 成 员 函 数 fit。 其 中 ,利用 式 (3. 15) 计 算 最 
优 解 ,并 作为 经 过 训练 的 模型 参数 保存 在 类 的 成 员 w 中。 第 7、8 行 实现 模型 预测 的 成 员 函 
数 predict。 它 用 经 过 训练 的 模型 参数 w 对 给 定 特 征 和 矩阵 进行 预测 。 

最 后 ,为 了 得 到 对 算法 效果 的 度量 ,实现 了 计算 均 方 误差 的 mean. squared. error 函数 和 
计算 决定 系数 的 r2_score 函数 。 它 们 分 别 依据 式 (3. 2) 与 式 (3. 11) 来 计算 。 


1 

2 

3 class LinearRegressicn: 

4 œf fit (self, X, y): 

5 self.w= np.linalg.inv(X.T.dot (X) ) .dot (X.T) .dot (y) 
6 


图 3.7 线性 回归 的 正规 方程 算法 
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7 def predict (self, X): 
8 return X.dot (self.w) 
B5 
10 defmean squared error(y true, y pred): 


23 return np.average((y true -y pred)**2, axis- 0) 

12 

13 defr2 score(y træ, y pred): 

14 nuverator- (y true - y pred)**2 

15 dencminator- (y true - np.average(y true, axis-0))**2 

16 retum 1- numerator.sum(axis- 0) /dencminator sum (axi s- 0) ) 
3.7 (d 


8013.2 散 点 的 直线 拟 合 。 


图 3. 8 是 应 用 图 3. 7 中 的 正规 方程 算法 求解 图 3.2 中 散 点 的 直线 拟 合 问题 的 算法 。 在 
图 3.8 中 ,第 4 一 7 行 的 函数 用 于 生成 服从 特征 与 标签 分 布 的 采样 。 第 9 一 12 行 的 process_ 
features 函数 用 于 处 理 特征 。 它 目前 的 功能 是 对 特征 组 增补 常数 1 来 简化 记号 。 第 14 行 的 
随机 种 子 取 值 为 0。 由 此 读者 可 以 重 构 本 例 中 的 数据 。 第 15 一 18 行 分 别 生 成 100 条 训练 数 
据 与 测试 数据 ,并 调用 process features 函数 对 特征 进行 处 理 。 第 20 一 22 行 利 用 图 3. 7 中 
实现 的 LinearRegression 训练 与 测试 模型 。 最 后 ,在 第 23 一 25 行 计算 并 打印 模型 在 测试 数 
据 上 的 均 方 误差 与 决定 系数 。 运 行 图 3. 8 中 的 程序 ,可 以 得 到 其 输出 结果 为 mse = 0.09. 


r2 = 0.75, 


import numpy as np 
import machine learning.lib.linear regression as lib 


1 
2 
3 
4 def generate semples (m): 

5 X-2* (np.randam.rand(m, 1) - 0.5) 

6 y-Xtnp.random.nomml(0, 0.3, (m, 1)) 
T retum X, y 

8 

9 


def process features (X): 
10 m, n- X.shape 
nu X-np.c [np.ones((m, 1), X] 
12 retum X 


14 mp.randam.seed(0) 
15 X train, y train-generate samples (100) 
16 X train-process features(X train) 


图 3.8 散 点 的 直线 拟 合 
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17 X test, y test- generate samples (100) 
18 X test= process features(X test) 


20 model- lib.LlinearRegression() 

21 model.fit(X train, y train) 

22 y pred-model.predict(X test) 

23 mse-lib.mean squared error(y test, y pred) 
24 r2-1ib.r2 score(y test, y pred) 

25 print ("mse= () and r2 ()".format (mse, r2)) 


图 3.8 (f£ 


线性 回归 算法 应 用 于 大 规模 数据 时 ,往往 还 需要 考虑 许多 实际 细节 。 下 面 通 过 房价 预 
测 这 一 实际 问题 来 看 线性 回归 的 具体 应 用 。 

例 3.3 房价 预测 问题 。 

一 个 地 区 的 房价 与 该 地 区 的 地 理 位 置 、 人 口 数 .居民 收入 等 诸多 特征 有 着 密切 的 关系 。 
房价 预测 问题 是 要 根据 给 定 小 区 的 特征 预测 该 小 区 房价 的 中 位 数 , 这 是 一 个 经 典 的 回归 问 
题 。 在 Sklearn 工具 库 中 集成 了 房价 预测 问题 的 数据 california_housing, 可 以 直接 使 用 。 
california housing 数据 集中 的 每 条 数据 都 包含 9 个 变量 : 人 均 收 入 (MedInc)、 房 龄 
(HouseAge) .房间 数 (AveRooms) ,卧室 数 (AveBedrooms)、 小 区 人 口 数 (Population)、 房 屋 
居住 人 数 (AveOccup) ,小 区 经 度 (Latitude) ,小 区 纬度 (Longitude) 和 房价 中 位 数 (Median_ 
house_value)。 其 中 ,房价 中 位 数 是 标签 ,其 余 的 8 个 变量 均 为 特征 。 表 3. 1 是 california_ 
housing 中 的 数据 采样 。 


表 3.1 california housing 中 的 数据 采样 


序号 | MedInc | HouseAge|AveRooms|AveBedrooms| Population| AveOccup| Latitude | Longitude Mee 
1 4. 5625 46 4.8 1.02 1872 833 37.97 | —122.59| 275 200 
2 |10.7326 11 8.5 3.1 1947 641 37.30 | —122.06| 500 001 
3 2. 3159| 13 4.1 1.04 3094 1091 33.16 | —117.20 91 600 
4 1. 6352 46 5.4 1.1 871 347 39.51 |— 121.56 53 100 
5 5. 8491 36 6.6 1.04 1911 631 33.79 | —118.09| 247 300 


显然 ,可 以 将 房价 预测 问题 看 作 一 个 线性 回归 问题 ,并 尝试 用 线性 回归 算法 求解 。 利 用 
图 3.7 的 算法 建立 房价 预测 的 线性 模型 。 具 体 的 流程 如 图 3.9 所 示 。 

在 图 3.9 中 ,第 14 行 导入 Sklearn 工具 库 中 的 california housing 数据 集 。 特 征 和 矩阵 存 
储 在 data 中 ,标签 存储 在 target 中 。 在 第 17 行 中 ,选取 20% 的 数据 作为 测试 数据 ,其 余 
80 儿 作为 训练 数据 。 
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1 import numpy as rp. 
2 fram sklearn.model selection import train test split 
3 fro sklearn.datasets import fetch california housing 
4 fram sklearn.preprocessing import StandardScaler 

5 import mechine learning.lib.linear regression as lib 
6 

7 

8 

9 


def process features (X): 
scaler= StandardScaler () 
Xescaler.fit transform(X) 

10 m,n-X.shape 
u Xe np.c [np.ones((,1)), X] 
12 retum X 


14 housing-fetch california housing() 
15 X-housing.data 

16 y-housing.target.reshape (- 1,1) 

17 X train, X test, y train, y test-train test split(X, y, test size-0.2, random state- 0) 
18 X train- process features(X train) 

19 X test-prooess features(X test) 


21 model- lib.LinearRegression() 

22 model.fit(X train, y train) 

23 y pred-model.predict(X test) 

24 mse-lib.mean squared error(y test, y pred) 
25 x12-lib.r2 soorely test, y pred) 

26 print ("mse- () and ræ ()".£ormat (mse, r2)) 


图 3.9 房价 预测 问题 的 线性 回归 算法 


第 18.19 行 调用 第 7 一 12 行 中 的 process features 函数 来 处 理 特征 。 在 这 个 例子 中 , 特 
征 处 理 主要 包含 两 步 。 

第 一 步 是 对 特征 进行 标准 化 。 特 征 标 准 化 是 线性 回归 算法 在 实际 应 用 中 的 重要 步骤 。 
在 一 个 实际 的 回归 问题 中 ,特征 组 的 各 分 量 往往 处 于 不 同 的 量 级 。 例 如 , 表 3. 1 中 的 人 口 
(Population) 与 卧室 数 (AvgBedrooms) 这 两 个 特征 分 量 的 量 级 是 不 同 的 。 由 于 线性 回归 模 
型 是 各 特征 分 量 的 加 权 和 ,如 果 两 个 特征 量 级 不 同 , 则 量 级 较 大 的 特征 将 主导 模型 的 训练 ， 
从 而 可 能 忽视 与 标签 更 为 相关 的 量 级 较 小 的 特征 分 量 。 这 将 导致 模型 过 度 拟 合 量 级 较 大 的 
特征 。 因 此 , 当 特 征 组 的 各 分 量 处 于 相同 量 级 时 ,线性 回归 算法 的 效果 最 好 。 这 就 是 特征 标 
准 化 的 目的 。 

给 定 m 条 训练 数据 x ,x2 x. E 开 ,对 特征 的 每 一 个 分 量 1)(1 委 7 委 思 ,计算 其 
均值 与 方差 : 
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Lx. a 
Bj — Ye? (3.17) 
i=l 


oj = ier =y) (3.18) 
为 了 消除 特征 的 量 级 差别 对 模型 训练 的 影响 ,可 对 an? (OI mL im om.lmj noA 
变换 ， 


af? 4 3 禾 (3.19) 


3X C3. 19) 的 变换 也 称 为 数据 的 标准 化 。 
BEO 为 x 的 标准 化 向 量 。 则 EPE, x0 REA C? (1 5 j n) 的 均值 
都 为 0, 方差 都 为 1。 


l5 9-0 (3. 20) 


一 >) z=] (3.21) 


特征 组 经 过 标准 化 之 后 ,其 各 分 量 均 处 于 同一 量 级 ,从 而 最 利于 线性 回归 算法 。 

图 3.9 中 的 第 8,9 行 调 用 Sklearn 工具 库 中 提供 的 标准 化 方法 StandardScaler 对 特征 
进行 标准 化 。 

经 过 对 特征 进行 标准 化 处 理 后 ,特征 处 理 的 第 二 步 是 对 特征 组 首位 增补 常数 1 以 简化 
记号 。 值 得 指出 的 一 个 细节 是 : 这 一 步 必 须 在 标准 化 之 后 实施 ,否则 特征 矩阵 X 的 首 列 ( 常 
数 1) 将 被 标准 化 为 全 0 列 ,给 正规 方程 求解 算法 带 来 困难 。 

第 21,22 行 训练 模型 ,第 23 行 对 模型 进行 测试 。 

运行 图 3. 9 所 示 的 程序 ,得 到 如 下 结果 : mse 一 0. 52,r2 一 0. 59。 从 决定 系数 大 于 50% 
来 看 ,模型 的 拟 合 效果 还 是 比较 理想 的 。 

最 后 探讨 正规 方程 算法 的 局 限 性 。 首 先 ,只 有 当 X7X n yis sg RE 3. 2 的 结论 才 成 立 。 
从 而 正规 方程 才 有 形式 简单 的 解 CX 30 7. XITy。 通 常 有 两 种 情况 可 能 导致 XIX 不 可 逆 。 第 
一 种 情况 是 所 选 各 特征 之 间 相 互 不 独立 。 如 果 特 征 相 互 不 独立 , 则 矩阵 X 的 各 列 线性 相关 ， 
导致 它 的 列 秩 rank (X) < wx。 根据 线性 代数 中 和 矩阵 秩 的 理论 (附录 A 定理 A. 1. 5), 当 
rankc(X) < n if, rankCX? X) = min(rankC (X) rank? (X) ) 一 >。 这 就 意味 着 XT X 不 可 逆 。 
第 二 种 情况 是 训练 数据 的 个 数 m 小 于 特征 个 数 n。 如果 训练 数据 的 个 数 mm 小 于 特征 个 数 n， 
WA rank? (X)< m <n., HETA. rank(X" X) — n, Bl X" X Z& As n] yk fg, 

当 上 述 两 种 情况 之 一 发 生 时 ,定理 3. 2 的 结论 不 成 立 。 此 时 , 解 正规 方程 的 算法 就 需要 
涉及 广义 逆 矩 阵 等 较为 复杂 的 线性 代数 方法 ,而 且 最 优 解 也 没有 较 简单 的 形式 了 。 这 是 正 
规 方程 算法 的 一 个 局 限 性 。 正 规 方程 算法 的 另 一 个 局 限 性 是 它 的 时 间 复 杂 度 。 在 含有 7 个 
特征 的 线性 回归 算法 中 , XT X 是 一 个 阶 方 阵 。 正 规 方程 算法 需要 对 AIX RK., X n A 
阵 求 着 算法 的 时 间 复 杂 度 为 O0z ) 。 因此 ,求解 正规 方程 算法 的 时 间 复 杂 度 也 是 OG ) 。 这 
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样 的 算法 效率 对 于 解 特征 较 多 的 回归 问题 是 无 法 接受 的 。 正 是 基于 以 上 两 个 原因 ,正规 方 
程 算法 并 不 是 解决 所 有 线性 回归 问题 的 万 能 钥匙 。 第 4 章 中 将 介绍 随机 梯度 下 降 算 法 ,该 
算法 能 较 大 程度 地 弥补 正规 方程 算法 的 不 足 之 处 。 


3.3 多 项 式 回归 


在 例 3. 3 的 房价 预测 问题 中 ,用 一 个 线性 回归 模型 来 拟 合 房屋 特征 及 房价 之 间 的 关系 。 
考虑 采用 线性 模型 假设 的 一 个 前 提 是 标签 与 特征 之 间 呈 现 近似 线性 关系 。 然 而 ,在 有 些 实 
际 问题 中 ,标签 与 特征 的 关系 并 非 线 性 的 ,而 是 呈 多 项 式 关系 。 在 这 种 情形 下 ,标签 与 特征 
之 间 的 关系 就 称 为 多 项 式 关系 。 当 标签 与 特征 之 间 旦 近似 多 项 式 关系 时 ,可 以 使 用 线性 回 
归 的 一 个 变形 一 一 多 项 式 回归 来 拟 合 标 签 与 特征 的 关系 。 

假设 在 一 个 回归 问题 中 ,训练 数据 中 只 含有 一 个 特征 ,并 且 标签 与 该 特征 之 间 呈 现 如 
图 3. 10(a) 所 示 的 关系 。 从 图 中 可 以 清晰 地 看 出 标签 与 特征 之 间 并 不 存在 线性 关系 。 随 着 
特征 值 的 增 大 ,标签 值 经 历 了 先 下 降 后 上 升 的 过 程 ,呈现 出 一 元 二 次 多 项 式 的 变动 趋势 。 如 
果 要 用 一 个 模型 来 拟 合 标签 与 特征 的 关系 ,可 以 考虑 采用 次 数 不 超过 2 的 一 元 多 项 式 模型 。 
设 互 = (h.(x)- w twrt w zz 一 (roywiyts)E 开 }。 采 用 均 方 误差 ,以 H 为 模型 
假设 的 经 验 损失 最 小 化 算法 输出 一 个 模型 A(z) — 0.94 — 1. 96x +0. 98 x°. MEI 3. 10(b) 可 
见 ,该 多 项 式 模型 很 好 地 拟 合 了 图 3. 10(a) 中 的 训练 数据 。 


-02 A ———— 
0.00 0.25 0.50 0.75 1.00 125 1.50 1.75 200 0.00 0.25 0.50 0.75 1.00 125 1.50 1.75. 200 
(a) (b) 
图 3.10 多 项 式 模型 拟 合 


从 这 个 例子 可 以 看 到 ,尽管 训练 数据 中 只 有 一 个 特征 zx, 但 是 如 果 将 1、z、z?* 均 看 作 特 
征 , 则 一 元 二 次 多 项 式 模型 he (£) = wo 十 wz 十 ws zx? 也 可 以 看 作 标 签 关 于 这 3 个 特征 的 线 
性 模型 ,从 而 可 以 直接 应 用 所 有 线性 回归 算法 的 理论 与 实现 。 这 就 是 多 项 式 回归 算法 的 基 
本 思想 。 

将 上 述 分 析 推 广 到 一 般 情况 ,考虑 元 d 次 多 项 式 模型 假设 : 
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Hra = Mh(xiszosttoxm)— ` Waapa x ge ex 
aj saz e, EZ. 
aj ay bo, <d 


n+d 


n 


在 第 2 章 的 例 2. 5 中 已 经 看 到 ,一 个 元 d 次 多 项 式 含有 ( ) 个 单项 式 。 如 果 将 每 一 


个 单项 式 zr x2… zx” 看 成 一 个 特征 , 则 一 个 nn 元 4d 次 多 项 式 模型 可 以 看 成 一 个 ( 
线性 模型 。 
定义 3.4( 多 项 式 回归 ) ”在 一 个 回归 问题 中 , 设 X 己 民 为 样本 空间 。 将 特征 x 一 
Qni ean ttt en, ) 转化 为 向 量 
«7 jf a. ymo rmm EZ 


x -— (ui amena! 
Lis ta, <d 


Py E 
JU 
n 


的 过 程 称 为 特征 的 d 次 多 项 式 化 ,将 x PA d 次 多 项 式 特征 ,将 针对 多 项 式 特征 的 线性 回归 
称 为 多 项 式 回 归 。 

例 3.4 考察 一 维 样本 空间 X CLR, 一 个 特征 x 可 以 被 3 次 多 项 式 化 为 多 项 式 特征 
E rnia a 

例 3.5 考察 二 维 样本 空间 X 己 区 ,一 个 特征 x 二 (ae) 可 以 被 3 次 多 项 式 化 为 


(7 J 10 维 多 项 式 特征 X — (1mm xmrbirbmxbx a oc? ,3 Je 
根据 定义 3.4, 一 旦 建立 了 多 项 式 特征 ,多 项 式 回归 就 是 线性 回归 ,从 而 可 以 应 用 线性 回 
归 的 所 有 理论 ,包括 正规 方程 算法 进行 求解 。 下 面 通过 图 3. 10 中 的 例子 展示 如 何 建立 多 项 


式 回 归 模 型 ,相应 的 算法 描述 见 图 3. 11。 


import numpy as np 

fram sklearn.preproocessing import PolynamialFeatures 

frum machine learning.lib.linear regression import LinearRegression 
import matplotlib.pyplot as plt 


1 
2 
3 
4 
5 
6 def generate semples (m): 

7 X-2* np.randem.rand(m, 1) 

8 y-X**2- 2* Xt l+np.randm.normal (0, 0.1, (m, 1)) 
9 retum X, y 

11 np.randam.seed(0) 

12 X, y-generate samples (100) 

13 poly-PolynamialFeatures (degree- 2) 


图 3.11 多 项 式 回 归 模 型 的 算法 描述 
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14 X poly-poly.fit transform(X) 
15 model= LinearRegression () 
16 model.fit(X poly, y) 


18 plt.scatter(X, y) 
19 W-np.linspace(0, 2, 300) .reshape (300, 1) 
20 W poly-poly.fit transform(W) 

21 u-model.predict(W poly) 

22 plt.plot(W, u) 

23 plt.show() 


图 3.11 (4b 


在 图 3. 11 中 ,第 6 一 9 行 实现 了 generate samples 函数 来 生成 数据 。 在 这 个 例子 中 , 特 
征 分 布 是 区 间 [0.2] 的 均匀 分 布 。 对 于 给 定 特征 xz, 标签 分 布 为 De — N(Qr— 0)*.0.1). 
这 是 一 个 以 (1—1) 为 期 望 且 以 0. 1 为 标准 差 的 正 态 分 布 。 第 12 行 调 用 generate 
samples 函数 生成 了 100 条 训练 数据 。 

58 13,14 行 是 多 项 式 回归 的 关键 部 分 一 一 特征 的 多 项 式 化 。 在 Sklearn 工具 库 中 实现 
了 PolynomialFeatures 类 。 它 的 功能 就 是 将 原始 特征 转化 为 指定 次 数 的 多 项 式 特征 。 由 于 
这 一 实现 十 分 简单 ,这 里 就 直接 调用 工具 库 中 的 类 ,而 不 展开 讨论 具体 的 算法 实现 了 。 在 第 
13 行 中 声明 了 一 个 PolynomialFeatures 实例 poly, 并 指定 多 项 式 次 数 为 2 次。 第 14 行 用 
fit transform 函数 将 特征 2 次 多 项 式 化 。 随 后 在 第 15,16 行 调 用 图 3.7 中 的 正规 方程 算法 
对 多 项 式 特征 进行 线性 回归 模型 训练 。 

第 18 一 23 行 绘制 模型 图 像 。 第 18 行 绘制 训练 数据 散 点 。 第 19 行 在 区 间 [0,2] 以 等 
距离 取出 300 个 点 ,并 在 第 20 行将 它们 多 项 式 化 。 第 21 行 用 训练 好 的 模型 对 这 300 个 点 
进行 标签 预测 。 第 22 行 用 Pyplot 工具 库 的 plot 函数 将 这 300 个 点 的 标签 值 连 线 , 以 构成 
模型 的 函数 图 像 。 运 行 图 3. 11 中 的 算法 可 得 到 图 3. 10(b) 中 的 模型 。 

例 3.6 第 2 章 的 例 2. 3 用 一 个 10 次 多 项 式 精 确 地 拟 合 了 平面 上 的 10 个 点 , 见 图 2.2。 
图 中 的 多 项 式 模型 hs 正 是 由 多 项 式 回归 算法 计算 出 来 的 。 

图 3. 12 中 用 多 项 式 回 归 算法 生成 图 2. 2 中 的 10 次 多 项 式 。 第 6 一 9 行 实现 生成 数据 
的 函数 generate_samples。 第 6 行 中 的 函数 参数 m 为 需要 生成 的 数据 个 数 。 第 7 行 按照 均 
匀 分 布 生成 [一 1,1] f m ^P zx. B 8 行 生成 相应 的 标签 。 标 签 分 布 D, = N (x,0.3) 是 期 
望 为 x 且 标 准 差 为 0. 3 的 正 态 分 布 。 第 12 行 调用 generate. samples 函数 生成 10 个 数据 
点 。 第 13,14 行将 特征 10 次 多 项 式 化 。 第 15,16 行 训练 多 项 式 回 归 模 型 。 第 18 一 24 行 用 
与 图 3. 11 所 示 的 算法 中 类 似 的 方法 绘制 模型 的 图 像 。 运 行 图 3. 12 中 的 算法 可 得 到 图 2.2 
中 精确 拟 合 训练 数据 的 10 次 多 项 式 。 
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import numpy as np 

fram sklearn.preprooessing import PolynamialFeatures 

franmachine learning.lib.linear regressicn import LinearRegression 
import matplotlib.pyplot as plt 


def generate semples(): 
X-2* (np.randam.rand(m, 1) - 0.5) 
y-X* np.random.nommal (0, 0.3, 61) 
retum X, y 


1l np.randmm.seed(100) 

12 X, y-generate samples (10) 

13 poly= PolynamialFeatures (degree- 10) 
14 X poly-poly.fit transform(X) 

15 model- LinearFegression|() 

16 model.fit(X poly, y) 


18 plt.exis( - 1, 1, - 2, 2]) 

19 plt.scatter(X, y) 

20 W-rp.linspace(- 1, 1, 100) .reshape (100, 1) 
21 W poly-poly.fit transform(W) 

22 wu-model.predict(W poly) 

23 plt.plot(W, u) 

24 plt.show() 


3.12 用 多 项 式 回归 算法 拟 合 例 2.3 的 数据 


3.4 线性 回归 的 正则 化 算法 


线性 回归 算法 是 一 个 经 验 损 失 最 小 化 算法 ,因此 在 有 些 情况 下 也 会 出 现 过 度 拟 合 。 特 
别 是 在 应 用 多 项 式 回归 算法 时 ,过 度 拟 合 的 现象 更 加 常见 。 第 2 章 中 介绍 的 正则 化 方法 是 
目前 最 为 常用 的 经 验 损失 最 小 化 算法 的 强化 算法 ,用 以 降低 其 过 度 拟 合 概率 。 本 节 介绍 正 
则 化 在 线性 回归 中 的 具体 实现 。 

定义 3.5( 岭 回归 ) ”线性 回归 的 工 ; 正则 化 


2 
minF (w) = 工 | xw 一 ?| +a [wl]? (3.22) 
weg m 


称 为 岭 回 归 ,其 中 (CA 00 为 正则 化 系数 。 
特征 个 数 过 多 与 训练 数据 不 足 通 常 是 过 度 拟 合 的 两 大 原因 。 当 特征 个 数 n 大 于 训练 数 
据 个 数 m 时 , XT X 是 不 可 逆 的 。 因 此 ,在 线性 回归 中 .过 度 拟 合 往往 伴随 着 X7 X 不 可 逆 。 
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而 当 XTX As np cp , 均 方 误 差 的 函数 图 像 会 呈现 山岭 状 。 
例 3.7 设 X=[1,0]。 aaxx] a| 不 


可 逆 。 此 时 , 均 方 误差 为 F(wi,ws) 一 wi. EH 
图 3. 13 所 示 的 类 似 山 岭 的 图 像 。 

对 于 这 类 山岭 状 的 函数 ,可 以 定义 如 下 。 

定义 3.6( 严 格 凸 函数 与 岭 函 数 ) 设 下 为 一 个 
PRAE. nA HEX uv E 妇 ,以 及 任意 0 二 a 二 1， e 
fi 4 

F(aut (1—a)v)< aF (u)+ (1—a)F (v) 

(3.23) 3.13 F(wi,wz)= wi 的 三 维 图 像 

则 称 下 为 一 个 严格 凸 函 数 , 否 则 称 下 为 一 个 岭 函 数 。 

根据 定义 3.6, 严 格 凸 函数 必 为 凸 函 数 , 但 是 凸 函 数 未必 是 严格 是 函数。 严格 凸 性 的 一 
个 判定 准则 是 , FF 为 严格 凸 函 数 当 且 仅 当下 的 Hessian 方 阵 V FO) > 0。 符号 > 表示 严格 
正定 , 即 VEO) 的 所 有 特征 根 均 为 正 实数 (附录 A 定理 A. 3. 9)。 

根据 这 个 判别 准则 ,如 果 一 个 函数 是 严格 凸 函 数 , 则 它 在 任何 局 部 区 域 都 不 是 线性 的 ， 
否则 函数 在 该 局 部 就 不 满足 式 (3. 23)。 如 果 一 个 函数 具有 局 部 线性 区 域 , 则 其 图 像 将 呈现 
如 图 3. 13 所 示 的 山岭 状 ,这 也 是 将 非 严 格 凸 函数 称 为 岭 函 数 的 原因 。 
定理 3.3 ”上 岭 回归 的 目标 函数 


-2 一- 
293 
*6 


F(w) = i | Xw — yl? +a lwl? 
是 一 个 严格 凸 函 数 。 由 此 可 知 , 岭 回归 有 唯一 的 最 优 解 w , 且 XIX 十 AT 可逆 ,从 而 
w' = (X'X-- mÀ)? X'y (3.24) 


WEBB. 首先 计算 F 的 Hessian 方 阵 : 
VF(Ow) = 2X" Xm 十 2AT 

由 于 2X7 Xm 是 一 个 半 正 定 方 阵 , 2AE. 是 一 个 严格 正定 方 阵 , 因 此 有 V FOw) > 0。 因 此 ， 
Few) 是 一 个 严格 凸 函 数 。 

因为 Fw) 是 一 个 严格 凸 函 数 , 由 严格 凸 函数 的 性 质 ( 附 录 A 定理 A. 3.7) 可 知 , 岭 回归 
有 唯一 最 优 解 w o 再 根据 凸 函 数 最 优 解 条 件 ( 附 A 定理 A. 3. 6) 可 得 w” 应 当 满 足 
VF(w* )—0. 即 满足 如 下 正规 方程 : 

XT(Xw” —y)y-màw' —0 

因为 XTX 十 maI 7-0. 所 以 XTX 十 mAI 可 逆 。 由 此 可 见 , 上 述 正 规 方程 有 唯一 解 w* 
(X7X - mM) XT y, 

例 3.8 考察 对 例 3. 7 中 目标 函数 的 正则 化 系数 为 0.5 的 工 ; 正则 化 : F(rz rs) 一 
wi 十 0.5 wi +0. 5 wh. F (w sw: ) 的 函数 图 像 如 图 3. 14 所 示 。 

从 图 3. 14 可 以 看 出 ,正则 化 消除 了 图 3. 13 中 狭长 的 山岭 。 
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图 3.14 例 3.7 目标 函数 正则 化 的 三 维 图 像 


根据 定理 3. 3 的 结论 ,即使 均 方 误差 | Xw — y|? /m 不 是 严格 凸 函 数 ,经 La 正则 化 后 的 
目标 函数 FO) = |[Xw — y]? /m +A |w? 依然 是 严格 凸 函 数 。 所 以 , 当 均 方 误差 为 岭 函 数 
时 ,通常 采用 岭 回 归 进 行 线性 模型 训练 。 岭 回归 的 英文 术语 是 ridge regression, HP ridge 
的 意思 即 为 山岭 ,这 就 是 岭 回 归 名 字 的 由 来 。 

根据 定理 3.3, 可 以 修改 图 3.7 中 的 算法 来 实现 岭 回 归 。 在 图 3. 15 的 算法 中 实现 了 类 
RidgeRegression。 第 4,5 行 是 构造 函数 ,传人 正则 化 系数 。 随 后 ,第 7 一 10 行 实现 了 式 
(3.24) 中 岭 回归 最 优 解 的 公式 。 第 12、13 行 与 普通 线性 回归 相同 ,用 训练 得 到 的 线性 模型 
进行 预测 。 


machine learning.lib.ridge regression 

1 import numpy as np 

2 

3 class RidgeRegression: 

4 def init — (self, Lambda) : 

5 Self.Lambda- Larbda 

6 

7 def fit(self, X, y): 

8 m, n-X.shape 

9 r-m* np.diag (self.lenbda * np.ones (n)) 
10 self.w-np.linalg.inv(X.T.dot (X)4 r) -dot (X.T) .dot (y) 
11 

12 def predict (self, X): 

13 return X.dot (self.w) 


图 3.15 岭 回归 算法 


例 3.9 L: 正则 化 的 模型 拟 合 。 
第 2 章 的 例 2. 7 ERT L 正则 化 的 效果 。 图 2. 16 中 的 (a)、(b)、(c)、(d) 分 别 是 正则 化 
系数 4 为 0.01、0.1、10、100 时 的 工 * 正则 化 经 验 损失 最 小 化 算法 所 得 到 的 模型 。 在 本 例 中 介 
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绍 建立 图 2. 16(a) 模 型 的 算法 。 只 须 修改 图 3. 16 中 的 4 值 ,就 可 以 分 别 建立 图 2. 16 H 
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(b)、(c) 和 (qd) 的 模型 。 

在 例 2. 7 中 ,特征 分 布 是 区 间 [ 一 1,1] 的 均匀 分 布 。 特 征 xz 的 标签 分 布 是 正 态 分 布 
N (z,0.3)。 模 型 假设 为 1 元 10 次 多 项 式 模型 。 此 处 考虑 的 是 对 该 模型 假设 的 Lo 正则 化 。 
正则 化 系数 为 一 0.01。 


在 图 3. 16 中 


Pit 


,结合 了 多 项 式 回 归 与 岭 回归 来 实现 这 样 的 模型 训练 ,并 生成 图 2. 1660 。 
第 6 一 9 行 按照 特征 与 标签 分 布 生成 数据 。 第 12 行 生成 10 条 数据 。 第 13、14 行将 特征 
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次 多 项 式 化 。 第 15、16 行 训练 正则 化 系数 等 于 0. 01 的 岭 回归 模型 。 第 18 一 24 行 用 类 似 于 
图 3. 11 中 的 作 图 方法 输出 图 形 。 运 行 图 3. 16 中 的 算法 就 可 以 得 到 图 2. 16(a) 。 


import numpy as np 

fram sklearn.preprocessing import PolynamialFeatures 

import matplotlib.pyplot as plt 

from machine learning.lib.ridge regression import RidgeRegression 


def generate semples (r) : 
X-2* (np.randcm.rand(m, 1) - 0.5) 
y-Xtnp.random.normal (0, 0.3, (m, 1)) 
retum X, y 


np. random. seed (100) 

X, y- generate samples(10) 

poly- PolynamialFeatures (degree- 10) 
X poly-poly.fit transform(X) 
model- RidgeRegressicn (Lanbda- 0.01) 
model.fit(X poly, y) 


pit.axis( - 1, 1, - 2, 2]) 

plt.scatter(X, y) 

W-np.linspace(- 1, 1, 100).reshape (100, 1) 
W poly-poly.fit transform(W) 
u-model.predict(W poly) 

plt.plot(W, u) 

pilt.show() 


3.16 多 项 式 模型 和 岭 回归 模型 


例 3.10 正则 化 系数 与 决定 系数 的 关系 。 
在 例 2. 7 中 已 经 看 到 ,正则 化 系数 的 大 小 控制 着 正则 化 的 强度 。 如 果 正 则 化 系数 过 小 ， 
模型 可 能 过 度 拟 合 ;而 如 果 正 则 化 系数 过 大 , 则 模型 可 能 拟 合 不 足 。 本 例 对 例 2.7 的 特征 和 
标签 分 布 拟 合 岭 回归 模型 ,并 绘制 模型 的 正则 化 系数 与 决定 系数 之 间 的 关系 图 。 相 应 的 程 
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import numpy as np 

fram sklearn.preprocessing import PolynamialFeatures 
import matplotlib.pyplot as plt 

import machine learning.lib.linear regression as lib 


frm machine learning.lib.ridge regression import RidgeRegression 


def generate samples (m): 
X-2* (np.randam.rand(m, 1) - 0.5) 
y= Xt mp.random.normal (0, 0.3, (m1) 
retum X, y 


np. random. seed (100) 

poly= PolynamialFeatures (degree- 10) 

X train, y train- generate samples (30) 
X train-poly.fit transfomm(X train) 
X test, y test-generate samples (100) 
X test-poly.fit transform(X test) 


lenbdes, train r2s, test 12s-[ ], [], [] 
for i in range (1l, 200): 
Lambda- 0.01* i 
Lanbdas append (Lambda) 
ridge= RidgeRegression (Lambda) 
ridge.fit(X train, y train) 
y train pred-ridge.predict(X train) 
y test pred-ridge.predict(X test) 
train r2s.append(lib.r2 score(y train, y train pred)) 
test r2s.append(lib.r2 score(y test, y test pred)) 


plt.figure(0) 

plt.plot (Lambdas, train 125) 
plt.figure(1) 

plt.plot (Lambdas, test r2s) 
plt.show() 


在 图 3.17 中 ,第 12—17 行 生成 30 条 训练 数据 与 100 条 测试 数据 ,并 将 特征 10 次 多 项 
式 化 。 在 第 19 一 28 行 中 ,分 别 取 正则 化 系数 4 为 0.01.0. 02,…,2. 00 来 计算 岭 回归 模型 在 
训练 数据 与 测试 数据 上 的 决定 系数 值 。 第 30 一 34 行 分 别 绘制 正则 化 系数 与 模型 的 训练 数 


图 3.17 拟 合 岭 回归 模型 
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据 和 测试 数据 的 决定 系数 的 关系 图 。 
运行 图 3. 17 中 的 程序 可 得 到 正则 化 系数 与 决定 系数 的 关系 ,如 图 3. 18 所 示 。 
R, Rı 
m 训练 数据 Ss 测试 数据 
0.80 0.735 
0.79 0.730 
0.78 0.725 
937? 0.720 
0100 025 0.50 0.75 100 125 130 1.75 200^ 0.00 025 0.50 0.75 100 125 130 1.75 200^ 
(a) (b) 


图 3.18 正则 化 系数 与 决定 系数 的 关系 


图 3. 18(a) 描 述 了 正则 化 系数 与 模型 在 训练 数据 上 的 决定 系数 之 间 的 关系 。 从 图 中 可 
以 看 出 , 随 着 正则 化 系数 的 增 大 ,模型 在 训练 数据 上 的 决定 系数 单调 下 降 。 从 数学 的 角度 
看 ,这 样 的 趋势 是 必然 的 。 因 为 随 着 正则 化 系数 的 增 大 , 岭 回 归 的 目标 函数 越 来 越 偏离 训练 
数据 的 均 方 误差 ,因而 求 得 的 岭 回归 的 最 优 解 在 训练 数据 上 的 决定 系数 就 会 越 来 越 小 。 

图 3.18(b) 描 述 了 正则 化 系数 与 模型 在 测试 数据 上 的 决定 系数 之 间 的 关系 。 从 图 中 可 
以 看 出 , 随 着 正则 化 系数 的 增加 ,模型 在 测试 数据 上 的 决定 系数 逐渐 增 大 ;在 到 达 一 个 最 高 
点 之 后 ,决定 系数 又 开始 逐渐 减 小 。 产 生 这 个 现象 的 原因 是 : 随 着 正则 化 系数 的 增 大 ,模型 
过 度 拟 合 的 程度 随 之 降低 ,导致 决定 系数 在 测试 数据 上 的 增 大 ;然而 随 着 正则 化 系数 继续 增 
大 ,模型 又 出 现 了 拟 合 不 足 , 因 而 决定 系数 又 开始 逐渐 减 小 。 

通常 情况 下 ,正则 化 算法 都 具有 图 3. 18 所 示 的 趋势 。 绘 制 算法 的 趋势 图 ,并 选择 能 使 
测试 数据 上 误差 最 小 的 正则 化 系数 ,是 设计 正则 化 算法 可 采用 的 一 般 策 略 。 在 这 个 例子 中 ， 
从 图 3. 18 中 可 以 看 出 ,应 当选 取 正 则 化 系数 六 0.6.。 按 此 策略 选取 的 正则 化 系数 是 过 度 拟 
合 与 拟 合 不 足 之 间 良 好 的 平衡 。 

作为 本 节 的 结尾 ,下 面 简要 介绍 两 类 线性 回归 的 正则 化 算法 
回归 。 

定义 3.7(Lasso 回归 ) ”线性 回归 的 工 , 正则 化 


minF(w) = L-|xw — y| --alwl (3.25) 
weg m 


称 为 Lasso 回归 ,其 中 CA 700 为 正则 化 系数 。 

Lasso 是 英文 Least Absolute Shrinkage and Selection Operator 的 首 字母 缩写 。 由 于 
Lasso 是 一 个 Li 正则 化 算法 , 它 具 备 第 2 章 中 的 L, 正则 化 算法 的 普遍 性 质 : 随 着 正则 化 强 
度 的 增 大 ,Lasso 回归 引导 算法 将 参数 分 量 逐 个 降 为 0。 例 2. 6 就 是 基于 模型 假设 为 1 元 10 
次 多 项 式 的 Lasso 回归 。 


Lasso 回归 与 弹性 网 
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岭 回归 是 线性 回归 的 Le 正则 化 。 它 同样 具备 所 有 Le 正则 化 算法 的 普遍 性 质 : 随 着 正 
则 化 系数 的 增 大 , 岭 回 归 引 导 算 法 均匀 地 减 小 各 个 参数 分 量 。 正 如 第 2 章 所 述 , 两 种 正则 化 
方法 各 有 其 优 缺 点 及 应 用 场合 。 岭 回归 能 使 参数 值得 到 控制 而 不 至 于 对 某 一 特征 过 度 拟 
合 。 而 Lasso 回归 的 强项 在 于 其 特征 选择 功能 , 它 自然 地 引导 算法 将 非 本 质 特征 的 参数 降 
为 0。 一 个 能 够 兼顾 以 上 二 者 之 长 的 方法 是 弹性 网 回归 ,其 定义 如 下 。 

定义 3.8( 弹 性 网 回归 ) ” 取 定 常数 二 0 与 0 三 r 三 1, 称 如 下 优化 问题 


2 
minF(w) = 工 |Xw 一 ?| +alwl+ a-r) |wl: (3. 26) 
weg m 


为 一 个 弹性 网 回归 。 其 中 , A 为 正则 化 系数 , -为 弹性 系数 。 

在 式 (3. 26) 的 弹性 网 回归 的 目标 函数 中 ,正则 化 部 分 是 参数 的 L, 范 数 与 L;* 范 数 的 凸 
组 合 。 弹 性 网 回归 算法 是 一 个 启发 式 算法 。 当 弹性 系数 x 选择 得 恰当 时 ,弹性 网 回归 可 以 
同时 具有 上 岭 回 归 与 Lasso 回归 的 优势 ,是 一 个 非常 实用 的 线性 回归 正则 化 方法 。 

Lasso 回归 与 弹性 网 回归 的 目标 函数 都 是 不 可 微 的 ,因而 不 能 使 用 本 章 的 正规 方程 算法 
求解 。 对 不 可 微 目标 函数 的 求解 可 以 用 第 4 章 的 次 梯度 下 降 算法 或 者 坐标 下 降 算 法 。 这 些 
算法 是 处 理 不 可 微 目标 函数 的 重要 方法 。Lasso 回归 与 弹性 网 回归 的 具体 解法 将 在 第 4 章 
中 详细 介绍 。 


3.5 线性 回归 的 特征 选择 算法 


监督 式 学 习 算法 的 任务 是 拟 合 多 个 特征 与 标签 的 关系 。 模 型 中 含有 哪些 特征 通常 需要 
根据 专业 知识 和 经 验 来 确定 。 在 实际 应 用 中 ,可 能 并 不 是 所 有 特征 都 与 标签 的 取 值 有 关联 。 
模型 中 如 果 包 含 了 与 标签 无 关联 的 特征 ,不 仅 会 增加 数据 规模 和 计算 量 , 还 会 影响 模型 对 标 
签 的 预测 效果 。 此 外 ,在 模型 的 训练 过 程 中 ,如 果 训 练 数据 的 规模 较 小 , 则 与 标签 无 关联 的 
特征 还 会 提高 模型 过 度 拟 合 的 概率 。 在 定义 3.7 中 介绍 的 Lasso 回归 是 具有 特征 选择 功能 
的 一 个 正则 化 方法 。 它 剔除 了 与 标签 无 关联 的 特征 ,这 也 是 该 方法 能 降低 过 度 拟 合 概率 的 
根本 原因 。 

特征 选择 是 监督 式 学 习 算法 的 一 个 重要 组 成 部 分 。 本 节 中 就 以 线性 回归 为 例 介 绍 两 种 
常用 的 特征 选择 算法 思想 一 一 逐步 回归 与 分 段 回 归 。 这 两 种 特征 选择 算法 的 思想 可 以 用 于 
任何 一 个 监督 式 学 习 算法 。 后 续 章 节 中 就 不 再 对 特征 选择 做 专门 叙述 了 。 

逐步 回归 是 一 个 贪心 算法 。 它 的 运行 效率 较 高 ,但 有 时 会 做 出 次 优 的 特征 选择 。 分 段 
回归 是 一 个 迭代 搜索 算法 。 它 的 运行 效率 较 低 , 但 其 选择 的 结果 通常 是 较 优 的 。 逐 步 回 归 
与 分 段 回归 各 有 其 特点 及 适用 场合 。 


3.5.1 逐步 回归 


逐步 回归 算法 采用 贪心 策略 来 选择 特征 。 在 逐步 回归 算法 中 ,根据 均 方 误 差 来 判断 一 
个 特征 与 标签 是 否 有 关联 。 如 果 一 个 特征 被 引入 模型 后 能 显著 地 减 小 模型 的 均 方 误差 , 则 
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认为 该 特征 与 标签 有 关联 ;否则 ,认为 该 特征 与 标签 无 关联 。 

逐步 回归 还 有 多 种 不 同 的 特征 选择 方法 。 向 前 逐步 回归 是 最 简单 的 一 种 特征 选择 方 
法 。 在 向 前 逐步 回归 算法 的 初始 阶段 , 先 选 定 第 一 个 特征 ,然后 重复 执行 以 下 几 个 步骤 。 首 
先 计 算 只 使 用 当前 选 定 特征 的 线性 回归 的 均 方 误差 ,然后 逐一 考察 尚未 被 选取 的 特征 , 找 出 
能 在 最 大 程度 上 降低 均 方 误差 的 那 一 个 特征 。 如 果 该 特征 在 统计 意义 上 显著 地 降低 了 均 方 
误差 ,就 将 该 特征 选 和 模型。 重复 循环 这 个 过 程 直至 没有 能 够 被 继续 选中 的 特征 为 止 。 在 
算法 运行 的 过 程 中 ,不 断 往 模型 中 添加 新 的 特征 ,但 并 不 移 除 模型 中 已 有 的 特征 ,因而 称 其 
为 向 前 逐步 回归 。 为 了 严格 描述 向 前 逐步 回归 算法 ,需要 做 一 些 术 语 准 备 。 

定义 3.9 设 向 量 xE 殉 。 给 定 集合 AS {1,2 sn), EN x4 = (zi)ien 为 由 x 中 下 标 
属于 A 的 分 量 构成 的 向 量 。 

定义 3.10 Ut XN — SmX n BRI, 给 定 集合 AC {1,2,…,n}, 定义 X, = 
(Xi )i<i<wjea 为 由 XX 中 下 标 属于 A 的 列 构成 的 矩阵 。 

基于 以 上 定义 ,可 以 给 出 向 前 逐步 回归 算法 的 完整 描述 ,如 图 3. 19 所 示 。 在 算法 中 ,用 
A 记录 选中 的 特征 ,用 C 记录 备 选 特征 。 在 每 一 次 循环 中 ,首先 对 当前 已 经 被 选中 的 特征 集 
合 A 解 线性 回归 问题 ,并 获得 最 优 的 均 方 误差 msea 。 然后 对 C 中 的 每 一 个 备 选 特征 ), 计算 
在 A 中 加 入 了 特征 7 的 线性 回归 的 最 优 均 方 误差 值 mseauj 。 从 mseau; 中 找 出 最 小 者 
mseau;"， 并 判断 其 是 否 在 统计 意义 上 显著 地 减 小 了 均 方 误差 。 如 果 是 , 则 将 所 对 应 的 特征 
7” 选 入 模型 ;否则 ,终止 循环 。 


向 前 逐步 回归 算法 
StepwiseRegressionC X y) : 
A = {1},C= (2,37) 
fori = 2,3. .n: 
mss = min gy Xo — y] 


forj EC: 


mseaui = 


1 
— |Xauw — »l* 
m 


min 
vexl ^l 
j' = argmin mseau; 
jec 

if msea/ mseay;* pass F test: 

AtA Uy 

C-—CNj* 
else: 


break 


return A 


图 3.19 向 前 逐步 回归 算法 描述 


在 向 前 逐步 回归 算法 中 ,采用 下 检验 来 判断 均 方 误差 的 减 小 是 否 具有 统计 显著 性 。 给 
定 两 个 均 方 误差 mse, 与 mse ,不 妨 设 mse 7 mse;. JH F 检验 来 计算 mse, 之 mses I) E fri E 
九 。 置 信和 度 户 是 在 重新 采样 训练 数据 并 对 其 重复 图 3. 19 中 算法 时 再 次 出 现 mse; 7 mse; fi flt 
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率 。 如 果 置 信 度 p 79574 WW IA mse 之 msez* 这 一 结论 具有 统计 显著 性 ,成 功 通 过 下 检验 。 
图 3. 20 是 图 3. 19 中 算法 的 具体 实现 。 算 法 的 第 4 行 定 义 了 StepwiseRegression 为 逐 
步 回归 算法 类 。 其 主体 是 第 20 一 37 行 的 特征 选择 函数 forward_selection。 第 13 一 18 行 实 
现 F 检验 。F 检验 需要 用 到 mses ,msem 和 训练 数据 数 m 的 信息 。 第 17 行 根据 这 3 个 信息 
计算 出 置信 和 度 p_value。 第 18 行 判断 p. value 的 值 是 否 不 低 于 95% ,并 返回 测试 结果 。 


1 import numpy as np 
2 frm scipy.stats import f 
3 
4 class StepwiseRegression: 
5 def fit(self, X, y): 
6 return rp.linalg.inv (X.T.dot (X) ) .dot (X.T) .dot (y) 
7 
8 def compute mse (self, X, y): 
9 w- self.fit(X,y) 
10 r- y -X.dot (w) 
1l return r.T.dot (r) 
12 
13 def f test(self, mse A, mse min, m): 
14 if mse min> mse A: 
15 return False 
16 F-mse A/mse min 
17 p value- f.odf(F, m, m) 
18 return p value» 0.95 
19 
20 df forward selection(self, X, y): 
21 m,n-X.shape 


22 A, C-[6], [i fori in range (1,n)] 

23 while len(C)» 0: 

24 ME A- self.oampute mse(d :, A], y) 
25 ME min, j min- float("inf"), - 1 
26 j min--1 

21 for j inc: 

28 MSE j= self.compute mse Qd :, 24 [3]], y) 
29 if MSE jcMSE min: 

3 MSE min, j min-MSE j, j 
31 if self.f test(MSE A, ME min, m): 
了 A.append(j min) 


图 3.20 向 前 逐步 回归 算法 实现 
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33 C.remove(j min) 
3A else: 
35 break 
36 self.w-self.fit (X :, A], y) 
3 self.h-A 
38 
39 def predict(self, X): 
40 return X :, self.A] .dot (self.w) 
图 3.20 (s 


例 3.11 向 前 逐步 回归 与 过 度 拟 合 。 


特征 选择 与 正则 化 有 紧密 的 联系 。 在 例 3.9 中 , 当 4 = 0.01 时 ,10 次 多 项 式 模型 H 


IE 


了 过 度 拟 合 。 原 始 特 征 zx 经 过 10 次 多 项 式 化 后 成 为 (Lre sea), 相当 于 有 11 个 特 
征 。 如 果 采 用 逐步 回归 对 其 进行 特征 选择 , 则 可 以 避免 或 减轻 过 度 拟 合 。 应 用 图 3. 20 的 向 


前 逐步 回归 算法 对 例 3. 9 的 训练 数据 进行 特征 选择 ,相应 的 程序 见 图 3. 21 。 


import numpy as np 
fram sklearn.preprocessing import PolyncmialFeatures 
franmachine learning.lib.stepwise regression import StepwiseRegression 


1 

2 

3 

4 

5 def generate semples (m): 
6 X-2* (np.randcm.rand(m, 1) ~ 0.5) 

7 于 对 mp.randcom.normal (0, 0.3, (m1) 
8 retum X, y 

9 

10 np.randm.seed (100) 

11 X, y-generate samples (10) 

12 poly= PolynamialFeatures (degree- 10) 

13 X poly-poly.fit transform(X) 

14 model-StepwiseRegression () 

15 model.forward selection(X poly, y) 

16 print (model.A, model.w) 


图 3.21 应 用 向 前 逐步 回归 算法 进行 特征 选择 的 程序 


运行 图 3. 21 的 程序 后 ,输出 的 模型 为 h(x) 一 0.05 十 1.09z。 该 模型 中 只 有 常数 项 和 之 
的 一 次 项 , z 的 高 次 项 均 由 于 不 能 显著 降低 均 方 误差 而 落选 。 图 3. 21 所 示 的 模型 拟 合 训练 


数据 的 效果 如 图 3. 22 所 示 。 


向 前 逐步 回归 算法 的 优点 是 实现 简单 ,运行 速度 快 。 然 而 ,向 前 逐步 回归 算法 的 缺点 也 


十 分 明显 , 它 是 一 个 贪心 算法 ,做 出 的 选择 可 能 是 次 优 的 。 
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-20 
-1.00 -0.75 -0.50 -0.25 0.00 025 0.50 0.75 1.00 
图 3.22 向 前 逐步 回归 拟 合 效果 


例 3.12 向 前 逐步 回归 算法 的 次 优 性 。 

设 样本 空间 X= [0,1]*, 即 特征 组 为 各 分 量 属于 区 间 [0,1] 的 三 维 向 量 。 特 征 分 布 为 
均匀 分 布 。 对 给 定 的 x 二 (zo «ai sx), 标签 值 分 布 D. =N Qni +2 22.0. 1) VA ài 20i H 
期 望 且 标 准 差 为 0. 1 的 正 态 分 布 。 因 此 ,参数 w — (0,1,2) 对 应 的 线性 模型 (n) — x 十 
22 是 均 方 误差 最 小 的 模型 。 从 特征 选择 的 角度 看 ,zi 与 zz 应 当 被 选中 ,而 且 对 应 的 参数 应 
当 分 别 为 wi 二 1 与 zw 一 2。 然 而 ,对 于 图 3. 23 中 的 训练 数据 ,相应 的 向 前 逐步 回归 算法 的 
运行 结果 为 w 二 (1.48,0,0)。 这 与 最 优 模型 的 参数 (0,1,2) 完 全 不 同 。 


import numpy as np 
frum machine learning.lib.stepwise regression import StepwiseRegression 


1 
2 

3 

4 X-np.array( 

5 [C 0.06,0.34,0.03] 
6 „C 0.44,0.76,0.28] 

7 „C 0.86,0.44,0.20] 

8 ,L 0.26,0.09,0.25]]) 

9 y-np.array([ 0.42], [ 1.32 ], [ 0.84], [ 0.61]]) 
10 

1l model- StepwiseRegression() 

12 model.forward selection(X, y) 

13 print(mdel.A, model.w) 


图 3.23 向 前 逐步 回归 得 到 次 优 解 


深入 探究 其 原因 ,在 图 3. 20 中 算法 的 第 1 步 循环 中 , A = (0) 对 应 的 模型 均 方 误差 
msea = 0. 79, 加 入 特征 zi 的 模型 均 方 误差 mseaul = 0.17。 加 入 特征 zs 的 模型 均 方 误差 
mseay; 一 0. 25, 这 二 者 均 未 通过 下 检验。 因此 ,算法 认为 添加 特征 zi 或 zs 不 能 使 模型 的 均 
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方 误差 有 统计 意义 上 的 显著 降低 ,从 而 在 模型 中 仅 选择 了 特征 as. 这 种 选择 显然 不 是 最 优 
的 ,这 也 说 明了 贪心 选择 策略 的 不 足 之 处 。 

针对 例 3. 12 中 的 问题 ,可 以 考虑 采用 另 一 种 逐步 回归 算法 一 一 向 后 逐步 回归 算法 。 这 
一 算法 采用 的 策略 是 : 初始 时 将 所 有 特征 选 和 人 模型 ,然后 逐步 剔除 不 能 显著 降低 均 方 误差 
的 特征 。 向 后 逐步 回归 算法 可 以 成 功 地 解决 例 3. 12 遇 到 的 问题 。 但 是 ,向 后 逐步 回归 也 是 
一 个 贪心 算法 ,所 以 它 依 然 可 能 做 出 次 优 的 特征 选择 。 除 此 之 外 ,在 当前 选 定 的 特征 已 经 过 
度 拟 合 ,从 而 具有 较 小 的 均 方 误差 时 ,向 后 逐步 回归 算法 将 无 法 继续 从 模型 中 剔除 与 标签 无 
关 的 特征 。 

除了 向 后 逐步 回归 算法 ,还 有 各 种 采用 其 他 特征 选择 方式 的 逐步 回归 算法 。 例 如 ,对 向 
前 逐步 回归 算法 进行 以 下 的 修改 : 在 每 一 步 添加 特征 进入 模型 之 前 , 先 检验 模型 中 是 否 存 
在 可 以 被 剔除 的 特征 ;还 可 考虑 每 次 搜索 都 加 入 一 组 特征 而 不 仅仅 是 一 个 特征 ;等 等 。 尽 管 
形式 多 样 , 但 是 归根 结 底 ,逐步 回归 算法 因 其 属于 一 类 贪心 算法 ,从 而 存在 一 定 的 局 限 性 。 
本 节 主 要 通过 向 前 逐步 回归 算法 来 展示 逐步 回归 的 思想 。 其 他 类 型 的 逐步 回归 算法 可 以 举 
一 反 三 , 触 类 旁 通 。 


3.5.2 分 段 回 归 


分 段 回归 算法 的 主要 思想 是 避免 采取 逐步 回归 算法 的 贪心 选择 所 产生 的 缺点 。 分 段 回 
归 算 法 通过 局 部 微量 调整 与 特征 对 应 的 参数 来 同时 考虑 所 有 与 标签 有 关联 的 特征 。 

为 了 曾 述 分 段 回 归 的 思想 ,首先 定义 向 量 之 间 的 相关 性 。 

定义 3.11( 相 关系 数 ) u.v ER, X 


corr(u.v) 一 Tul ivl (3. 27) 


为 wy 之 间 的 相关 系数 。 

根据 解析 几何 知识 可 知 , corr (u.v) Æi u wv 之 间 夹 角 的 余弦 值 。 如 果 两 个 向 量 相互 
垂直 , 则 认为 这 两 个 向 量 是 不 相关 的 ,此 时 有 corr(u,v) 二 0。 当 wv 的 夹 角 为 锐角 时 , 称 u、v 
之 间 正 相关 ; u,v 的 夹 角 越 小 ,它们 之 间 的 相关 性 就 越 强 ; 当 uv 的 夹 角 为 0 时 ,两 个 向 量 完 
全 重合 ,相关 度 达 到 正 向 最 大 ,此 时 有 corr(u.v) 二 1。 当 ww 的 夹 角 呈 钝 角 时 . 称 wuv 之 间 负 
相关 ; uv 的 夹 角 越 大 ,相关 性 也 越 大 ; 当 两 者 夹 角 为 180" 时 ,两 个 向 量 互 为 反 向 ,相关 度 达 
到 负 向 最 大 ,此 时 有 corr(u.v) —— 1. £& E Br XR. 相关 系数 corr(u,v) 是 一 个 取 值 在 
[一 1,1] 区 间 内 的 实数 。 相 关系 数 的 绝对 值 越 大 ,表示 uv 之 间 的 相关 性 越 强 。 当 
corr(uwv) 关 0 时 ,根据 其 符号 判定 uv 之 间 是 正 相 关 还 是 负 相 关 。 

分 段 回 归 算 法 是 一 个 搜索 算法 。 具 体 算法 描述 见 图 3. 24。 除 了 特征 X 与 标签 y 之 外 ， 
分 段 回 归 算 法 还 需要 指定 两 个 参数 一 一 循环 次 数 N 和 学 习 速 率 7, 分 别 用 于 控制 搜索 的 步 
数 与 步 长 。 算 法 设 定 初始 参数 向 量 w 二 (0,0,…,0)ERR。 随后 ,进行 N 轮 循环 ,逐步 更 新 参 
数 向 量 。 在 每 一 轮 循环 中 ,算法 首先 计算 当前 参数 对 应 模型 的 预测 误差 + 一 y 一 Xw。 然后 找 
出 与 > 的 相关 系数 绝对 值 最 高 的 特征 )” 。 如 果 特 征 j" 与 7 正 相关 , 则 将 参数 沿 着 特征 j" 的 
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方向 按 指定 步 长 前 进 一 小 步 ;否则 ,向 特征 7” 的 反方 向 前 进 一 小 步 , 步 长 为 7。 


分 段 回归 算法 
StagewiseRegression( X, y, N,7) : 
w 一 (0,0,…,0),t 一 0 
while t < N: 
7 —y—Xw 
j’ Sargmax| corr (X; sr) | 
w w-FE5* sign(corr(X;* or) )* Xj* 
t1 


return w 


图 3.24 分 段 回归 算法 描述 


从 直观 上 看 ,模型 加 入 了 与 当前 预测 误差 相关 性 最 高 的 特征 ,因而 能 最 大 程度 地 降低 均 
方 误差 。 在 这 方面 ,分 段 回归 算法 与 逐步 回归 算法 是 一 致 的 。 但 与 逐步 回归 算法 不 同 的 是 ， 
分 段 回归 算法 的 每 一 步 并 不 直接 选 定 一 个 特征 ,而 是 朝 着 该 特征 的 方向 (或 反方 向 ) 探 索 一 
小 步 。 如 果 存 在 一 组 相关 的 特征 , 且 它 们 与 预测 误差 的 相关 性 非常 接近 , 则 分 段 回归 算法 将 
均匀 地 逐步 探索 每 一 个 特征 。 最 终 的 效果 是 沿 着 所 有 相关 特征 的 角 平 分 线 前 进 , 而 不 是 按 
照 贪 心 策略 选中 其 中 某 一 个 特征 。 

图 3. 25 是 分 段 回归 的 算法 实现 。 第 4 一 18 行 的 feature selection 函数 是 算法 的 主体 。 
第 6 行 计算 一 个 含有 个 分 量 的 列 向 量 norms。 该 列 向 量 的 第 j 个 分 量 是 特征 矩阵 X 的 第 
j 列 Xi 的 Ls 范 数 。 在 计算 特征 与 预测 误差 相关 性 时 要 用 到 norms 的 值 。 在 此 处 预先 计算 
好 该 值 , 以 避免 在 循环 中 重复 计算 。 第 7 一 9 行 初始 化 w 和 t 的 值 ,并 同时 初始 化 预测 误差 值 
为 y。 

从 第 10 行 开始 N 轮 循环 。 在 每 一 轮 循环 中 ,第 11 行 按照 式 (3. 27) 计 算 每 一 个 特征 与 
预测 误差 的 相关 系数 ,第 12 行 计算 相关 系数 绝对 值 最 大 的 特征 jw， 第 13 行 计算 需要 对 w 
作出 的 调整 delta. 第 14 行 调整 w, 第 15 行 调整 相应 的 预测 误差 值 。 


machine learning.lib.stagewise regression 
1 import numpy as mp 


class StagewiseRegression: 
def feature selection(self, X, y, N, eta): 
m, n- X.shape 
noms- np.linalg.nomm(X, 2, axis-0).reshape(- 1, 1) 
w-np.zeros (n) 


t-0 


cO - Oo UO e QU M 


图 3.25 分 段 回归 算法 实现 
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9 ry 
10 while t<N: 

u c- X.T.dot (r) /noms 

12 j mex- np.argrex (abs (c) ) 

13 delta-eta* np.sign(d j mex]) 

14 v3 mex]- Wd j max]+ delta 

15 r-r-delta* X :, j max] .reshape (- 1,1) 
16 t-ttl 

17 Self.w-w 

18 retum w 

19 

20 — def predict (self, X): 

2 return X.dot (self.w) 


图 3.25 (5b 


例 3.13 分 段 回归 算法 的 最 优 解 。 

在 例 3. 12 中 ,逐步 回归 算法 的 贪心 选择 性 质 导 致 其 做 出 了 次 优 特征 选择 。 采 用 分 段 回 
归 算 法 可 以 解决 这 一 问题 。 在 同样 的 数据 上 运行 分 段 回归 算法 ,得 到 的 参数 估计 结果 为 w 一 
(0,0.9,1.9)。 这 个 结果 十 分 接近 最 优 解 。 在 图 3. 26 中 ,清晰 地 展示 了 分 段 回归 算法 的 搜 
索 过 程 。 图 3. 26 中 的 eyz 轴 分 别 表 示 wow ves 的 值 ,图 中 的 折线 是 分 段 回归 算法 的 搜 


图 3.26 分 段 回 归 算 法 的 搜索 轨迹 


从 图 3. 26 可 以 看 到 ,在 整个 搜索 过 程 中 , wo 的 值 始 终 为 0。 算 法 轮流 增长 w 与 ws 的 
值 ,直至 到 达 其 最 终 解 w — (0.0.9.1.9). 

与 逐步 回归 算法 相 比 ,分 段 回归 算法 的 主要 优点 是 避免 了 采用 贪心 选择 策略 。 但 是 ,分 
段 回 归 算 法 还 存在 两 个 缺点 。 第 一 个 缺点 是 分 段 回归 算法 可 能 需要 大 量 的 迭代 搜索 时 间 ， 
因而 导致 其 运行 效率 较 低 。 第 二 个 缺点 是 分 段 回 归 算 法 有 时 显得 过 于 保守 ,从 而 使 其 降低 
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过 度 拟 合 的 效果 减弱 。 总 而 言 之 ,这 两 类 特征 选择 算法 各 有 千秋 ,从 理论 上 也 难 断 定 熟 优 熟 
劣 。 在 实际 应 用 中 ,可 根据 具体 情况 选用 合适 的 特征 选择 算法 。 通 常情 况 下 ,能 最 大 程度 地 
降低 过 度 拟 合 的 特征 选择 算法 就 是 合适 的 算法 。 通 过 实验 来 选取 合适 的 特征 选择 算法 是 线 
性 回归 实践 中 的 一 个 重要 手段 。 


小 结 


本 章 对 监督 式 学 习 中 的 线性 回归 算法 做 了 详细 的 介绍 ,深入 解答 了 本 章 开 头 提出 的 关 
于 线性 回归 算法 的 一 系列 综合 性 问题 。 首 先 在 3. 1 节 对 线性 回归 的 基本 概念 以 及 度量 方式 
做 了 完整 的 介绍 。 在 此 基础 上 ,通过 应 用 最 大 似 然 原则 ,阐述 了 均 方 误差 的 统计 意义 。 在 
3.2 节 重 点 讨论 了 线性 回归 问题 的 正规 方程 解法 。 正 规 方 程 解法 是 凸 优化 最 优 解 判定 准则 
在 线性 回归 算法 中 的 具体 表现 。 在 3. 3 节 介 绍 了 多 项 式 回归 算法 。 它 是 线性 回归 算法 在 非 
线性 数据 上 的 拓展 。 多 项 式 回归 算法 的 本 质 依 然 是 线性 回归 。 在 3.4 节 中 讨论 了 岭 回 归 、 
Lasso 回归 与 弹性 网 回归 ,这 是 第 2 章 中 的 正则 化 算法 在 线性 回归 算法 中 的 具体 体现 。 在 
3. 5 节 讲 述 了 线性 回归 中 的 特征 选择 算法 。 与 正则 化 算法 类 似 , 特 征 选择 的 目的 是 处 理 过 
度 拟 合 问题 。 这 也 是 奥 卡 姆 剃刀 法 则 的 另 一 种 体现 。3. 4 节 与 3. 5 节 讲 述 的 算法 思想 都 不 
局 限于 线性 回归 ,它们 可 以 应 用 于 任何 经 验 损失 最 小 化 算法 。 


习题 


3.1 假设 Y 是 一 个 在 区 间 [ab] 均匀 分 布 的 随机 变量 , 且 ab 的 值 未 知 。 现 观察 到 了 
的 m 个 采样 yn,y?,…,y”。 请 用 最 大 似 然 原 则 来 估计 a Mo 的 值 。 

3.2 假设 有 平面 上 有 3 个 点 : (一 1.0, 一 1.2)、(0.0,1.0) 和 (1.0,2.8)。 请 描述 相应 
的 正规 方程 ,并 通过 求解 正规 方程 来 计算 关于 这 3 个 点 的 最 佳 直线 拟 合 。 

3.3 假设 在 一 个 回归 问题 中 的 样本 是 一 个 三 维 向 量 x — (zi ,zs ,zs)。 请 对 向 量 x 进 
行 2 次 多 项 式 化 ,并 描述 相应 的 多 项 式 回归 模型 。 

3.4 r 王 (2,1) 是 平面 上 的 一 个 向 量 。 设 有 以 下 的 5 个 向 量 : x, = (3,0), x 一 
(一 1, 一 1),x3 二 (0,2), 训 二 (一 1,-2) sx; 二 (一 1,2), 其 中 的 哪些 向 量 与 r 相互 独立 ? 哪 一 
个 向 量 与 + 最 相关 ? 

3.5 ”糖尿病 预测 。 

糖尿 病 数据 集 是 Sklearn 提供 的 一 个 标准 数据 集 。 它 从 442 例 糖 尿 病 患 者 的 资料 中 选 
取 了 10 个 特征 一 一 年 龄 .性别 体重 ,血压 和 6 个 血清 测量 值 ,以 及 这 些 患 者 在 一 年 后 疾病 
发 展 的 病情 量化 值 。 糖 尿 病 预测 问题 的 任务 是 根据 上 述 10 个 特征 预测 病情 量化 值 。 
图 3. 27 是 读 取 糖 尿 病 数据 集 的 程序 ,其 中 load_diabetes 函数 返回 特征 矩阵 X 与 标签 向 量 y。 
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1 fra skleam.datasets import load diabetes 
2 


3 X, y-load diabetes (retum X y=True) 


图 3.27 读 取 糖尿 病 数 据 集 的 程序 


请 用 线性 回归 算法 来 完成 糖尿 病 预 测 任 务 。 

3.6 带 权重 的 线性 回归 算法 。 

在 有 些 机 器 学 习 问 题 中 ,不 同 的 数据 有 不 同 的 价值 。 例 如 ,在 房价 预测 问题 中 ,模型 在 
位 于 黄金 地 段 的 小 区 上 预测 得 准确 将 带 来 更 大 的 价值 。 也 就 是 说 ,在 线性 回归 问题 中 , 设 训 
练 数据 集 是 

S 2 MD ,( oD Q0) eer (y (P , 9 uo) 

其 中 , v € RAUS Q0 y) 的 价值 。 此 时 算法 的 求解 目标 是 输出 线性 模型 h, (x) 来 优 
化 如 下 带 权重 的 均 方 误差 : 


L5 99 (i Q9) — y (3. 28) 
ied 


请 推广 线性 回归 的 正规 方程 算法 ,求解 式 (3. 28) 所 表示 的 带 权重 的 线性 回归 问题 。 

3.7 RANSAC 算法 。 

在 机 器 学 习 应 用 中 ,训练 数据 可 能 存在 异常 值 。 对 线性 回归 问题 而 言 ,一 小 部 分 异常 值 
有 可 能 会 误导 模型 的 预测 。 图 3. 28(a) 中 的 5 个 异常 数据 点 影响 了 线性 回归 的 整体 拟 合 效 
果 。 事 实 上 ,图 3.28(b) 才 是 较为 理想 的 拟 合 。 


—1.00 -0.75 -0.50 —0.25 0.00 0.25 0.50 0.75 1.00 


(a) (b) 
图 3.28 异常 数据 对 线性 回归 的 影响 


RANSAC 算法 是 能 够 排除 异常 数据 干扰 的 一 个 回归 算法 。 它 的 英文 全 称 是 Random 
Sample Consensus , 意 为 随机 采样 一 致 。RANSAC 算法 也 是 一 个 基于 线性 回归 思想 的 算 
法 。 该 算法 需要 3 个 参数 : N、d 和 k。 该 算法 通过 N 轮 循环 来 生成 N 个 模型 hi ,hs，… ,hw， 
并 从 中 选 出 整体 均 方 误差 最 小 的 一 个 作为 算法 的 模型 输出 。 在 第 1 轮 循环 中 ,算法 从 训练 
数据 S 中 随机 地 选 出 一 个 子 集 S,。 首先 ,用 线性 回归 算法 计算 出 一 个 模型 六 来 拟 合 S, 中 的 
数据 。 然 后 ,用 B, 表示 S 中 所 有 与 模型 预测 值 的 误差 不 超过 4 的 点 。 如 果 B, 中 有 超过 个 
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点 , 则 算法 再 用 一 次 线性 回归 计算 出 一 个 模型 来 拟 合 B, 中 的 数据 ,并 将 本 轮 循环 获得 的 模 
型 更 新 为 ho 

请 根据 上 面 所 描述 的 算法 思想 来 实现 RANSAC 算法 ,并 对 图 3. 28 展示 的 数据 用 该 算 
法 来 排除 异常 数据 的 干扰 。 图 3. 28 展示 的 数据 可 由 图 3. 29 中 的 程序 生成 。 


1 import numpy as rp 


3 defgenerate semples(m, k): 

4 X nommel-2* (np.randam.rand(m, 1) - 0.5) 

5 y nommel-X nomalt rp.random.nomal (0, 0.1, (m1) 
6 X outlier-2* (np.random.rand(k, 1) - 0.5) 

7 y outlier- X outlier+ np.random.normal(3, 0.1, (k,1)) 
8 X-np.concatenate((X normal, X outlier), axis- 0) 

9 y-np.concatenate((y normal, y outlier), axis- 0) 

10 retum X, y 


12 np.randmm.seed(0) 
13 X, y-generate samples (100, 5) 


图 3.29 生成 异常 数据 的 程序 


3.8 向 后 逐步 回归 算法 。 

向 后 逐步 回归 算法 是 与 向 前 逐步 回归 算法 不 同 的 另 一 个 常用 的 特征 选择 算法 。 该 算法 
在 初始 阶段 就 将 所 有 特征 选 人 模型 ,然后 逐步 剔除 不 能 显著 降低 均 方 误差 的 特征 ,直至 不 能 
继续 剔除 为 止 。 请 实现 向 后 逐步 回归 算法 ,并 将 该 算法 用 于 拟 合 例 3. 12 的 数据 。 

3.9 向 量 值 线性 回归 算法 。 

在 图 3. 1 描述 的 线性 回归 算法 中 ,标签 y € R 是 一 个 实数 。 实 际 上 ,线性 回归 可 以 推广 
到 标签 为 实 向 量 的 情形 。 在 一 个 回归 问题 中 ,假设 样本 空间 XE 杰 ,标签 空间 Y 握 联 。 将 如 
下 形式 的 模型 称 为 一 个 广义 线性 模型 : 

hw (x)= x'W--b (3, 29) 

在 式 (3.29) 中 ,特征 组 x 是 nX1 列 向 量 ,W J& nox E BUE. b JE ko 1 9p ht, 可见 模 型 
hw 是 一 个 从 R 到 下 的 映射 。 矩阵 W 是 hw 的 参数 。 

给 定 训练 数据 S={(x y ) (c9 ，72 ) (x00 ,y)]), HP x? ER, yP cg, E 
于 式 (3. 28) 中 的 广义 线性 模型 ,可 以 定义 如 下 广义 均 方 误差 : 


15 | Aw (x? )— y? |? (3. 30) 
向 量 值 线性 回归 算法 的 任务 是 最 小 化 式 (3. 30) 中 的 广义 均 方 误差 。 请 推广 正规 方程 算 
法 ,用 于 求解 向 量 值 线性 回归 问题 。 
3.10 下 半 脸 预测 问题 。 


下 半 脸 预测 问题 的 任务 是 根据 一 个 人 的 上 半 脸 图 像 预测 其 下 半 脸 的 模样 。 图 3. 30 是 
一 个 下 半 脸 预测 的 例子 。 图 3. 30(a) 是 一 个 真实 的 人 脸 图 像 。 而 图 3. 30(b) 中 的 人 脸 的 下 
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半 部 是 模型 做 出 的 预测 。 


图 3.30 人 脸 的 下 半 脸 图 像 预 测 


人 脸 的 下 半 脸 预测 问题 的 数据 来 自 1992 一 1994 年 间 剑 桥 AT&T 实验 室 摄取 的 400 张 
人 脸 图 片 。 它 已 经 被 集成 在 Sklearn 的 数据 库 中 了 。 图 3. 31 中 的 程序 是 数据 获取 的 方法 。 
第 3 行 导 和 人 读 取 数据 的 函数 fetch_olivetti_faces。 第 5 行 用 这 一 函数 读 取 400 张 人 脸 图 片 。 
第 6 行将 图 片 存 于 数组 images 中 。 第 7、8 行 取出 第 一 张 人 脸 图 片 并 显示 该 图 片 。 每 一 张 
图 片 都 是 一 个 64 X64 的 像素 灰 度 值 矩阵 。 第 10 行将 矩阵 变换 成 向 量 的 形式 。 第 12、13 fT 
分 别 将 图 片 的 上 半 部 分 设 为 特征 ,下 半 部 分 设 成 标签 。 


import numpy as np 
import matplotlib.pyplot as plt 
fram sklearn.datasets import fetch olivetti faces 


1 
2 

3 

4 

5 data-fetch olivetti faces() 
6 imges data.images 

7 plt.imshow (images 0]) 

8 plt.show() 

9 

10 data- images.reshape ( (len (data.images), — 1)) 
11 n pixels-data.shapd 1] 

12 X-datd :, :(n pixelst1) // 2] 

13 y-datd :, n pixels //2:] 


图 3.31 读 取 人 脸 图 片 数据 的 程序 
请 用 习题 3. 9 中 的 向 量 值 线性 回归 算法 训练 广义 线性 模型 ,以 完成 下 半 脸 预测 任务 。 
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本 章 介绍 机 器 学 习 中 的 优化 搜索 算法 。 机 器 学 习 中 的 许多 问题 最 终 都 可 归结 为 一 个 明 
确 的 最 优化 问题 。 因 此 ,机 器 学 习 中 的 许多 算法 不 可 避免 地 用 到 最 优化 理论 中 的 成 熟 、 高 效 
的 算法 。 线 性 回归 与 岭 回归 问题 的 最 优 解 都 有 精确 的 数学 解析 表达 式 , 因 而 可 以 用 正规 方 
程 算法 求解 。 然 而 , 除 此 之 外 的 绝 大 多 数 机 器 学 习 算法 的 最 优 解 都 没有 精确 的 数学 表达 式 。 
在 这 种 情况 下 ,需要 用 到 最 优化 理论 中 更 具 一 般 性 的 优化 算法 。 在 机 器 学 习 中 ,优化 搜索 算 
法 是 最 为 常用 的 一 般 性 优化 算法 。 

搜索 算法 通常 具有 如 下 的 基本 算法 结构 : 从 可 行 区 域 中 任意 初始 点 开始 搜索 。 在 每 个 
搜索 点 的 局 部 可 行 区 域 中 寻找 一 个 能 使 目标 函数 值 下 降 的 方向 并 沿 该 方向 移动 至 下 一 可 行 
点 。 按 此 方式 循环 迭代 ,直至 无 法 继续 移动 为 止 。 此 时 输出 搜索 结束 时 所 在 的 可 行 点 。 由 
于 从 最 终 输出 的 可 行 点 出 发 无 法 再 找到 一 个 能 局 部 降低 目标 函数 的 下 一 个 可 行 点 ,因而 算 
法 输出 的 解 必定 是 一 个 局 部 最 优 解 。 对 于 凸 优化 问题 而 言 , 局 部 最 优 解 一 定 也 是 全 局 最 优 
解 ,所 以 算法 必定 能 输出 最 优 解 。 而 在 非 凸 优化 问题 中 ,当局 部 最 优 值 接近 全 局 最 优 时 , 算 
法 也 能 输出 一 个 近似 最 优 解 。 

本 章 介 绍 4 类 搜索 算法 。4. 1 节 介 绍 梯度 下 降 算法 与 次 梯度 下 降 算 法 。 梯 度 下 降 算 法 
是 最 基本 的 优化 搜索 算法 。 它 在 每 一 步 都 朝 着 目标 函数 梯度 的 反方 向 前 进 。 而 次 梯度 下 降 
算法 是 梯度 下 降 算法 在 目标 函数 不 可 微 时 的 推广 。4. 2 节 介绍 随机 梯度 下 降 算法 。 该 算法 
是 梯度 下 降 算法 在 数据 规模 较 大 的 机 器 学 习 问 题 中 的 改进 算法 , 它 大 幅度 地 降低 了 求解 的 
计算 时 间 复杂 度 。4. 3 节 介 绍 牛 顿 迭代 算法 。 该 算法 的 原始 功能 是 计算 函数 的 零点 。 由 于 
优化 问题 可 以 转化 为 计算 目标 函数 梯度 的 零点 ,因此 ,牛顿 迭代 算法 就 有 了 用 武之 地 。 收 敛 
速度 较 快 是 牛顿 迭代 算法 较 其 他 搜索 算法 的 优势 所 在 。4. 4 节 介绍 坐标 下 降 算 法 。 该 算法 
采用 贪心 策略 ,逐次 对 每 一 分 量 优化 目标 函数 值 ,直至 对 任 一 分 量 都 无 法 继续 优化 时 为 止 。 
由 于 坐标 下 降 算法 比较 简单 , 且 易于 实现 ,因此 ,许多 机 器 学 习 算 法 都 是 基于 坐标 下 降 算 法 
的 思想 设计 的 。 
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4.1 梯度 下 降 算 法 与 次 梯度 下 降 算法 


梯度 下 降 算法 是 解决 优化 问题 的 重要 方法 之 一 。 该 算法 的 思路 可 概括 为 : 假定 目标 函 


数 可 微 ,算法 从 空间 中 任 一 给 定 初始 点 开始 进行 指定 轮 数 的 搜索 ,在 每 一 轮 搜索 中 


Ph 都 计算 目 


标 函 数 在 当前 点 的 梯度 ,并 沿 着 与 梯度 相反 的 方向 按照 一 定 步 长 移动 到 下 一 可 行 点 。 图 4.1 
是 一 个 经 历 了 15 步 的 梯度 下 降 算法 的 运行 过 程 。 由 于 该 算法 在 每 一 点 处 的 移动 方向 都 为 


梯度 的 反方 向 ,因而 将 其 称 为 梯度 下 降 算法 。 


9.04 


0.00 025 0.50 075 100 125 150 175 200 
图 4.1 梯度 下 降 算法 的 搜索 过 程 


图 4. 2 给 出 了 梯度 下 降 算法 的 描述 。 图 4. 2 中 算法 的 任务 是 如 下 无 约束 优化 问题 : 


min F (w) 
ver 


其 中 ,目标 函数 下 是 一 个 可 微 的 n 元 实 函 数 。 该 算法 包含 两 个 参数 ,一 个 是 搜索 


的 轮 数 N， 


另 一 个 是 搜索 的 步 长 77 二 0) 。 初 始 时 , 设 定 w 为 全 0 向 量 。 随 后 进行 N 轮 循环 ,在 每 轮 循 


环 中 都 沿 VF(w) 的 反方 向 前 进 一 小 步 , 步 长 为 7: 


w- w— 7 (w) (4.1) 
将 7 了 称 为 学 习 速 率 。 

梯度 下 降 算 法 

w—0 

fort = 12,7. Ni 

w-—w—5)VFO9) 

return w 

图 4.2 梯度 下 降 算法 
接 下 来 分 析 梯 度 下 降 算法 的 收敛 原理 。 在 任意 一 点 w, 根据 多 元 函数 泰勒 展开 公式 ,对 
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任意 u 有 


2 
F(u)= F(w) + (VF(w),u 内 十 也 (u — w)" V FO) (u 一 mw) 十 … 


Wu = w—9 VF (w), 并 代入 上 式 ,可 以 得 到 
F(u)— FO?) — q | VFw) ||? 4-0(5) (4. 2) 

其 中 , o(7) 为 低 阶 项 ,在 7 足够 小 的 时 候 可 以 忽略 不 计 。 从 式 (4.2) 可 以 看 出 ,只 要 VEO #0, 
就 有 下 (wu) 二 F(w)。 这 就 说 明 , 目 标 函 数值 沿 梯 度 反 方向 局 部 下 降 , 这 正 是 梯度 下 降 算法 能 
收敛 到 局 部 最 优 值 的 原理 。 

例 4.1 考察 图 4.1 中 的 目标 函数 F(zw) 一 (w 一 1)*。 容易 看 出 , 当 w 二 1 时 下 达到 其 
最 小 值 。 图 4. 3 用 梯度 下 降 算法 验证 了 这 一 事实 。 在 第 1 行 定义 梯度 下 降 的 搜索 轮 数 为 
20 ,学 习 速 率 7 — 0. 1。 第 3 行 开始 20 轮 循环 。 在 循环 的 每 一 步 都 沿 着 梯度 反方 向 以 步 长 7 
更 新 w 的 值 ,此 处 VF (ww) — 2(w — 1). 运行 图 4.3 中 的 算法 得 到 ww 二 0.996, 它 十 分 接近 最 
优 解 。 


N, eta=20, 0.1 

w-0 

for t in range(N) : 
w-w-eta* 2* (w-1) 


print (w) 


Qo QD on 


图 4.3 目标 函数 (w 一 1)* 的 梯度 下 降 算 法 


例 4.2 线性 回归 问题 的 梯度 下 降 算法 。 

正规 方程 算法 是 求解 线性 回归 问题 的 重要 算法 。 但 由 于 正规 方程 算法 需要 计算 特征 方 
Ve X X 的 逆 , 因 而 当 特 征 个 数 非常 多 时 ,求解 正规 方程 的 计算 量 较 大 ,从 而 导致 求解 时 间 较 
长 。 因 此 ,对 于 有 较 多 特征 的 线性 回归 问题 ,梯度 下 降 算 法 是 更 实用 的 求解 方法 。 
梯度 下 降 算法 求解 线性 回归 问题 时 , 设 定 目标 函数 为 均 方 误差 FO) = 
| Xw —Y |*/m.,FCw) 的 梯度 为 


VFGO = Ë x* (xw — y) (4.3) 
图 4. 4 是 线性 回归 问题 的 梯度 下 降 算 法 实现 。 在 该 算法 中 ,第 6 行将 模型 参数 w 初始 
化 为 0。 第 7 行 开 始 N 轮 循 环 。 在 循环 的 每 一 步 中 ,第 8 行 计 算 当 前 模型 的 预测 误差 Xw 一 
y， 第 9 行 按照 式 (4. 3) 计 算 梯 度 ,第 10 行 按照 式 (4. 1) 执 行 梯度 下 降 搜 索 。 


machine learning.lib.linear regression gd 
1 import numpy as np 


图 4.4 线性 回归 问题 的 梯度 下 降 算法 
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3 class LinearRegressicn: 

4 def fit(self, X, y, eta, N): 
5 m, n-X.shape 

6 w= np.zeros ( (n, 1) ) 

q for t in range(N) : 

8 e-X.dot(w) -y 

9 g-2* X.T.dot(e) /m 
10 w-w-eta*g 

n self.w-w 

12 

13 def predict (self, X): 

14 return X.dot (self.w) 


图 4.4 (d 


图 4.2 中 的 梯度 下 降 算法 要 求 目标 函数 可 微 。 当 目标 函数 不 可 微 时 ,需要 将 梯度 的 概 


念 推广 到 次 梯度 。 
定义 4.1( 次 梯度 ) BFR 一 了 R 为 一 个 nn 元 函数 。 如 果 w,v ER 满足 如 下 的 性 质 : 
F(u)> F(w)+<v.u— w). Vu ER (4.4) 
则 称 " 是 下 在 w 处 的 一 个 次 梯度 。 称 集合 aF(Cw) = (v ER vH F Ew 处 的 次 梯度 } 为 下 在 
处 的 次 梯度 集 。 


图 4.5 是 对 定义 4.1 的 直观 的 解释 。 取 定 wv ER, 定义 一 条 斜率 为 vu 且 过 下 (w) 点 的 
直线 工 (4) 二 FF(w) 十 (vsu 一 w)。 如 果 下 的 图 像 完全 位 于 直线 L 上 方 .如 图 4.5(a) 所 示 , 则 
RER v HF 的 一 个 次 梯度 。 所 有 这 样 的 斜率 的 集合 就 是 下 在 w 处 的 次 梯度 集 9F(w), 如 
图 4.5(b) 所 示 。 


3F(w) 


图 4.5 次 梯度 集 


当 目 标 函 数 是 凸 函数 时 ,次 梯度 是 梯度 在 不 可 微 情形 的 自然 推广 。 在 可 微 的 情形 下 ,次 
梯度 就 是 梯度 。 

定理 4.1 WE FR 了 是 一 个 凸 函 数 , 且 在 w 处 可 微 , 则 9F(w) = {VF(w)})。 

WEBB. 首先 考虑 == 1 的 情形 。 E n= 1t, VE(w)— F Cw), 也 就 是 说 ,对 任意 的 vE 
9F(w), 要 证 明 v = F' (w). 

对 任意 的 wx > w., 根据 式 (4.4) 有 下 (w) 宇 F(w) 十 v(u 一 w), 因此 有 
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F(u —FOD (4.5) 


u— w 
在 式 (4.5) 中 取 右 极限 一 w, 得 到 F, (w)2 v. 
另 一 方面 ,对 任意 的 u <w, 根据 式 (4.4) 有 F(wu) 宇 F(w) 十 v(u 一 w) 。 由 于 wu 一 ww 过 
0. 因而 将 下 (w) 移 至 不 等 号 左边 并 在 两 边 同时 除 以 w 一 ww 之 后 ,得 到 
EUN- Fo» ky (4.6) 


u— w 

在 式 (4.6) 中 取 左 极限 u> w ,得 到 F (w)< v. 因为 下 在 w 处 可 微 , 所 以 F- (w)— 
F, (w)=F (w), WETA v= F (w). 

XET— RE n — 1 的 情形 ,只 需 对 每 一 分 量 进行 证 明 , 即 可 得 到 定理 4. 1 的 结论 。 

例 4.3 Li 范 数 函数 的 次 梯度 。 

" 首先 考虑 一 维 情形 , 即 绝对 值 函数 | ] :及 ~ 

apa 民 。 绝 对 值 函数 在 0 点 不 可 微 ,而 在 其 他 各 点 均 
可 微 。 根 据 定理 4.1, 当 zw 之 0 时 ,有 alzw| — 
{1}; 当 w 二 0 时 ,有 3|w| —(71) F w-—0 
的 情形 ,从 图 4.6 可 以 直观 地 看 到 ,绝对 值 函数 的 
图 像 位 于 任意 斜率 在 [一 1,1] 的 过 0 点 的 直线 上 
Jr. Pit o4 w= 0m. 3|w|= [一 1,1]。 

上 述 结论 可 以 推广 到 高 维 情形 。 考 虑 n 维 向 
fib L, 范 数 函 数 。 对 于 w — Gus wem) € Rav = Gave) EI | w| 4 BAHI 
任意 1 三 i 过 n, 有 


斜率 -1 


图 4.6 绝对 值 函数 在 0 点 的 次 梯度 集 


p». 如 果 w 0 
vi €E1[ 一 1,1]， WẸ w; = 0 (4.7) 
i— 1)» 如 果 ww; — 0 
将 图 4. 2 算法 中 的 梯度 VF (w) 换 成 次 梯度 9F(w), 就 可 得 到 梯度 下 降 算法 在 目标 函数 
不 可 微 情形 的 推广 。 目标 函数 不 可 微 时 的 梯度 下 降 算法 也 称 为 次 梯度 下 降 算法 。 图 4.7 给 
出 了 次 梯度 下 降 算 法 的 描述 。 该 算法 在 搜索 的 每 一 步 都 任 取 一 个 次 梯度 方向 来 更 新 参数 w 
的 值 。 


次 梯度 下 降 算法 
w—0. wu =0 
fort = 1,2, N: 
randomly pick v € 9F(w) 
Wee n ny 


Wam Wan TW 


return W = Wsum/N 


图 4.7 次 梯度 下 降 算法 
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与 图 4. 2 中 的 梯度 下 降 算 法 相 比 ,次 梯度 下 降 算法 具有 如 下 特征 。 首 先 ,算法 在 每 轮 循 
环 中 任 取 一 个 次 梯度 的 方向 作为 搜索 方向 。 具 体 取 到 哪 一 个 次 梯度 并 不 重要 。 其 次 ,次 梯 
度 下 降 算法 输出 所 有 搜索 点 的 平均 值 ,而 不 是 算法 终止 时 所 在 的 点 。 这 是 因为 次 梯度 下 降 
并 不 能 保证 每 一 次 循环 都 严格 降低 目标 函数 值 。 因 此 ,算法 终止 时 的 解 不 一 定 是 整个 搜索 
过 程 中 使 目标 函数 值 达 到 最 小 的 点 。 显 然 ,算法 输出 平均 值 是 一 个 稳定 性 更 强 的 策略 。 

例 4.4 Lasso 回归 优化 算法 。 

次 梯度 下 降 算法 的 一 个 重要 的 应 用 是 求解 Lasso 回归 问题 。 第 3 章 的 定义 3.7 给 出 了 
Lasso 回归 的 定义 。 按 照 式 (3. 25) Lasso 回归 问题 的 目标 酚 数 为 minF (W= | Xw y] /m+ 


Alwl. 
Lasso E JI (C £6 $E s Je A PE [eL [8] E L, 正则 化 算法 。 在 例 4. 3 中 展示 了 工 ; 正则 化 
W A | w| 不 是 处 处 可 微 的 。 因 此 ,次 梯度 下 降 算法 是 适用 于 求解 Lasso 回归 问题 的 优化 算 
法 。 在 计算 Lasso 回归 问题 目标 函数 的 次 梯度 9F(w) 时 ,只 需 分 别 计算 均 方 误差 
| Xw — y|*m 以 及 正则 化 项 * | w| 的 次 梯度 即 可 。 
根据 例 4.3, 取 uw = Sign(w), 即 对 任意 1 过 i 三 n, 有 
1， WF w 二 0 
Wi = 0. WẸ w =0 (4.8) 
一 1， WẸ w <0 
Wu Ealw|。 又 因为 均 方 误差 |Xw— y| /m 是 可 微 函 数 , 它 的 次 梯度 即 为 梯度 
2 X* (Xw — y)/m. 因此 ,Lasso 回归 问题 目标 函数 的 一 个 次 梯度 为 
2 


m 

基于 式 (4.9) ,得 到 次 梯度 下 降 算法 在 Lasso 回归 问题 中 的 具体 实现 ,如 图 4.8 所 示 。 

在 图 4. 8 的 算法 中 声明 了 Lasso 类 。 第 4 行 的 构造 函数 传人 指定 的 正则 化 系数 4 的 值 。 第 

7 行 定义 模型 训练 的 fic 函数 。 除 了 特征 XX 与 标签 y 之 外 ,还 传人 学 习 速 率 了 和 搜索 步 数 N 。 

第 12 行 开始 N 轮 循环 。 在 每 一 轮 循环 中 ,第 12、13 行 实现 式 (4.9) ,第 14 行 更 新 w 的 值 ,第 
15 FFRI w 的 值 ,第 16 行 计算 循环 过 程 中 w 的 平均 值 。 


X" (Xw —y)+Au EaFCw) (4.9) 


machine learning.lib.lasso 
1 import numpy as rp 
2 


3 class lasso: 
4 def init — (self, Ienbda- 1): 

5 self.Ilenbda- Landa 

6 

7 def fit(self, X, y, eta- 0.1, N- 1000): 
8 m,n- X.shape 


4.8 Lasso 回归 问题 的 次 梯度 下 降 算法 
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9 w= np.zeros ((n,1)) 
10 self.w-w 
n for t in range(N) : 
12 e-X.dot (w)- y 
13 v-2* X.T.dot (e) /mt sel£.Lenbda * np.sign (w) 
14 w-w-eta* v 
15 self.w=w 
16 self.w/=N 
i 
18 def predict (self, X): 
19 retum X.dot (self .w) 


图 4.8 (£5 


例 4.5 JH Lasso 回归 拟 合 多 项 式 模型 。 

在 第 2 章 的 例 2.6 中 ,展示 了 4 个 正则 化 模型 。 通 过 对 多 项 式 模型 用 Lasso 回归 可 
以 得 到 图 2. 14 所 示 的 模型 。 这 里 具体 展示 = 0.001 时 的 拟 合 模型 以 及 绘制 图 2. 14(a) 的 
算法 , 见 图 4.9。 通 过 修改 程序 中 的 4* 值 为 0.01、0.1 和 0.5, 就 可 以 得 到 图 2. 14 的 (b)、(c) 
和 (d)。 

在 图 4.9 中 ,第 11 一 16 行 生 成 数据 并 调用 图 4. 8 中 的 Lasso 回归 问题 的 次 梯度 下 降 算 
法 训练 多 项 式 模型 。 第 18 一 24 行 绘制 模型 图 像 。 


import numpy as np 

fram sklearn.preprocessing import PolynamialFeatures 
import matplotlib.pyplot as plt 

franmachine learning.lib.lasso import Lasso 


def generate semples (m): 
X-2* (np.randam.rand(m, 1) -0.5) 
y-Xnp.randem.nomml(0, 0.3, (m, 1)) 
retum X, y 


1l np.randam.seed(100) 
12 X, y-generate samples (10) 

13 poly- PolynamialFeatures (degree- 10) 

14 X poly-poly.fit transform(X) 

15 model-Iasso (Lenbda- 0.001) 

16 model.fit(X poly, y, eta- 0.01, N- 50000) 


图 4.9 用 Lasso 回归 拟 合 多 项 式 模型 的 程序 
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18 plt.axis([- 1, 1, - 2, 2]) 

19 plt.scatter(X, y) 

20 W-rnp.linspace(- 1, 1, 100) .reshape (100, 1) 
W poly-poly.fit transform(W) 
u-model.predict(W poly) 

23 plt.plot(W, u) 

24 plt.show() 


图 4.9 (45 


4.2 随机 梯度 下 降 算 法 


在 经 验 损失 最 小 化 算法 中 ,目标 函数 有 如 下 形式 : 


minF(w) = LY (a, (x9 ),y®) (4, 10) 
weg mz 


HP LOS Q0 ) y? ) 是 模型 lw 在 训练 数据 (x”,y”) 上 的 经 验 损失 。 在 用 梯度 下 降 算 法 求 
解 式 (4.10) 中 的 无 约束 优化 问题 时 ,需要 计算 下 的 梯度 。 根 据 梯度 的 线性 性 质 , 有 


VF(w) = 二 > VLA, (x? ) y? ) (4.11) 
i=] 


因此 ,为 了 计算 VF(w), 需要 先 对 每 一 条 训练 数据 (x”,y”) 计 算 经 验 损 失 的 梯度 
VLA, (x ) y? )， 再 对 这 些 梯度 取 平 均值 。 当 训练 数据 规模 较 大 时 ,这 是 一 个 非常 耗 时 的 
计算 。 

随机 梯度 下 降 算法 是 梯度 下 降 法 的 一 种 改进 算法 。 随 机 梯度 下 降 算法 在 每 次 迭代 时 可 
以 从 所 有 训练 数据 中 取 一 个 采样 来 估计 目标 函数 梯度 ,因而 它 能 够 大 幅度 地 降低 算法 的 时 
间 复 杂 度 。 随 机 梯度 下 降 算法 适用 于 训练 数据 规模 较 大 的 场合 。 

从 VF(w) 的 表达 式 可 以 看 出 ,如 果 随 机 地 从 S 中 选取 一 条 训练 数据 (x,y”)， 则 
VEO, (x ) y? ) 的 期 望 值 恰 为 YF(w), BI 

VEW) = Ec® Pys [V (hy (x? ) y? )] 

EE, m IRAH, PT ELA 2 Bf BL ie RC — 2 I| £6 2C (x? y? ) i EVE he (x? ) y? ) 天 
VF(w)。 这 就 是 随机 梯度 下 降 算 法 的 核心 思想 。 

图 4. 10 是 随机 梯度 下 降 算 法 的 描述 。 图 中 算法 的 目标 是 最 小 化 式 (4. 10) 中 的 目标 函 
数 下 。 算法 的 输入 是 一 组 训练 数据 S — (C(x y. (Q9 ,7 ) c ,y )}。 算 法 需要 
的 参数 是 搜索 步 数 N 以 及 用 于 计算 学 习 速 率 的 参数 1。 与 直 。 算 法 循环 执行 N 轮 搜 索 。 在 
每 一 轮 循环 1 中 ,随机 选取 一 条 训练 数据 (x”,y”), 并 计算 当前 模型 在 (x”,y”) 上 的 经 验 
损失 的 梯度 VI (he (x”),y”)。 随 后 ,算法 沿 梯 度 VI(h, (x”),y”) 的 反方 向 调整 w 的 值 ， 
步 长 为 
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i-em (4. 12) 


其 中 , p 与 是 两 个 算法 参数 。 从 式 (4. 12) 可 以 看 出 , 步 长 随 着 搜索 轮 数 的 增加 而 减 小 。 
因此 ,算法 搜索 越 接近 最 优 解 ,搜索 的 步 长 就 越 小 ,以 确保 不 会 跳 过 最 优 解 。 最 后 ,算法 输出 
所 有 搜索 点 的 平均 值 以 增强 其 结果 的 稳定 性 。 


随机 梯度 下 降 算法 
w= O, Wom = 0 
fort = 1,25, N: 
Sample (x? ,y® )— S 


Lh. 
TU mtt 


Ww— qM (Rh, (x? ) y? ) 


Wum 77 Wen H W 


return W = Wym /N 


Æ 4.10 随机 梯度 下 降 算法 


例 4.6 线性 回归 问题 的 随机 梯度 下 降 算法 。 
随机 梯度 下 降 算 法 求解 线性 回归 问题 时 ,模型 h, 在 训练 数据 (x0 ,y2”) 上 的 损失 为 
L(h, (x? ),y9 )— (Ovx? 一 y2)2。 由 此 可 知 ， 
M (h, (x? ), y? J= 2((w, x? ) — y? Je x? (4.13) 
根据 式 (4. 13) ,可 以 得 到 图 4. 10 中 随机 梯度 下 降 算 法 在 线性 回归 问题 中 的 具体 应 用 ， 
如 图 4. 11 所 示 。 


y 

2 

3 class LinearRegression: 

4 def fit (self, X, y, eta 0-10, eta 1-50, N= 3000) : 
5 m, n-X.shape 

6 w-np.zeros((n,1)) 

" Self.w-w 

8 for t inrange(N): 

9 i- np.randcm.randint (m) 
10 x-X i].reshape(1,- 1) 

n e x.dot w- y i] 

2 g-2* ex x. 

13 w-w-eta 0* g/(tteta 1) 
14 self.wk—w 


图 4.11 线性 回归 问题 的 随机 梯度 下 降 算法 
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15 self.w /-N 

16 

9 df predict (self, X): 

18 return X.cbt (self .w) 


图 4.11 (do 


图 4. 12 用 图 4. 11 中 线性 回归 的 随机 梯度 下 降 算法 来 求解 房价 预测 问题 。 在 这 个 例子 
中 ,使 用 随机 梯度 下 降 算法 时 必须 对 特征 进行 标准 化 与 限界 处 理 。 见 图 4. 12 的 第 11 一 14 
行 。 如 果 没 有 这 两 个 步骤 ,运行 算法 可 能 会 遇 到 两 个 问题 : 第 一 个 问题 是 算法 在 运行 过 程 
中 的 一 些 中 间 计 算 结果 可 能 会 超出 浮 点 数 上 界 ,第 二 个 问题 是 算法 可 能 不 收敛 。 


1 import numpy as np 

fram sklearn.datasets import fetch california housing 

fram sklearn.preprocessing import StandardScaler 

fram sklearn.preprocessing import MinMaxScaler 

fram sklearn.model selection import train test split 

frammachine learning.lib.linear regression sgd import LinearRegression 
fram sklearn.metrics import mean squared error 

fram sklearn.metrics import r2 score 


(0 0 - Oo OQ » QU I» 


10 def process features(X): 

ahi scaler- StandardScaler () 

12 X-scaler.fit transform(X) 

33 Scaler-MinMaxScaler (feature range- (-1,1)) 
14 X-scaler.fit transform(X) 

15 m,n-X.shape 

16 Xe np.c [np.ones((, 1)), X] 

17 retum X 


19 housing-fetch california housing() 

20 X-housing.data 

21 y-housing.target.reshape (- 1,1) 

22 X train, X test, y train, y test-train test split (X, y, test size- 0.2, random state- 0) 
23 X train-prooess features 区 train) 

24 X test-process features(X test) 


26 model- LinearRegression() 


图 4.12 房价 预测 问题 的 随机 梯度 下 降 算法 
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27 model.fit(X train, y train, eta 0-10, eta 1-50, K- 1000) 
28 y pred-model.predict(X test) 

29 mse-mean squared error(y test, y pred) 

30 I2=r2 score(y test, y pred) 

31 print ("mse- (), r2- ()".format (mse, score)) 


图 4.12 (5o 


运行 图 4. 12 中 的 程序 得 到 的 结果 为 : mse 一 0. 59,r2 一 0. 57。 这 个 结果 与 第 3 章 中 的 
例 3. 3 用 正规 方程 算法 得 到 的 解 十 分 接近 。 

例 4.7 梯度 下 降 算 法 与 随机 梯度 下 降 算法 效果 对 比 。 

本 例 通过 Sklearn 工具 库 中 的 make. regression 函数 来 随机 生成 一 个 线性 回归 问题 。 
在 图 4. 13 的 程序 中 ,第 2 行 导 入 make regression 函数 。 第 6 行 调用 该 函数 生成 100 条 训 
练 数据 ,其 中 指定 的 数据 规模 是 100。 数 据 含有 两 个 特征 。 标 签 服从 正 态 分 布 ,标准 差 是 
0.1, 偏 置 项 是 0。 第 8 行将 标签 变形 成 算法 所 需 的 列 向 量 格式 。 第 10 一 12 行 用 图 4. 4 中 的 
梯度 下 降 算法 来 训练 线性 模型 ,并 拟 合生 成 的 数据 XX、y。 第 14 一 16 行 用 图 4. 11 中 的 随机 梯 
度 下 降 算法 来 训练 模型 。 


import numpy as np 

fram sklearn.datasets import make regression 

import machine learning.lib.linear regression gd as gd 
import machine learning.lib.linear regression sgd as sgd 


X, y-make regression(n samples- 100, n features-2, noise- 0.l, bias- 0, randam state- 0) 
y- y-reshape (- 1,1) 


10 model-gd.LinearRegression () 
11 model.fit(X, y, eta- 0.01, N- 3000) 
12 print (model.w) 


14 model- sgd.LinearRegression() 
15 model.fit(X, y, eta 0-10, eta 1-50, N- 3000) 
16 print (model.w) 


图 4.13 对 比 梯度 下 降 算法 与 随机 梯度 下 降 算 法 效果 的 程序 


运行 图 4. 13 中 的 程序 ,可 以 看 到 这 两 个 算法 得 到 的 模型 完全 一 致 ,它们 输出 的 模型 参 
数 都 是 w 一 (29.2,96.2)。 然 而 ,深入 剖析 算法 运行 过 程 , 就 会 发 现 两 个 算法 的 明显 区 别 。 
图 4.14 是 两 个 算法 的 收敛 过 程 比 较 。 从 图 4. 14(a) 显 示 的 梯度 下 降 算法 的 收敛 过 程 可 以 看 
出 ,算法 每 一 步 都 在 朝 着 最 优 解 的 方向 前 进 。 而 图 4. 14(b) 显 示 的 随机 梯度 下 降 算法 的 收 
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敛 过 程 就 不 同 了 ,虽然 该 算法 的 整体 方向 也 是 朝 着 最 优 解 前 进 ,但 是 收敛 过 程 比 梯度 下 降 算 
法 要 曲折 得 多 。 


wi wi 
METTI TOOT 随机 梯度 下 降 
80 80 


60 60 


(a) (b) 
图 4.14 梯度 下 降 算法 与 随机 梯度 下 降 算法 收敛 过 程 对 比 


与 梯度 下 降 算法 相 比 ,随机 梯度 下 降 算 法 的 优势 在 于 其 时 间 复杂 度 。 可 以 看 到 ,计算 
VF(w) 的 时 间 复 杂 度 是 计算 VI (hs (x”),y”) 的 mw 和 倍 。 由 此 可 见 , 梯 度 下 降 算法 的 每 一 次 
循环 耗 时 均 为 随机 梯度 下 降 算 法 的 m 信 。 在 二 者 的 循环 次 数 相同 的 情况 下 .随机 梯度 下 降 
算法 耗 时 是 梯度 下 降 的 1/m。 此 外 ,随机 梯度 下 降 算法 的 时 间 复 杂 度 与 训练 数据 的 规模 m 
无 关 。 这 意味 着 无 论 训练 数据 的 规模 有 多 大 ,都 不 会 影响 随机 梯度 下 降 算法 的 效率 。 

虽然 随机 梯度 下 降 算法 在 时 间 复 杂 度 上 优 于 梯度 下 降 算法 ,但 与 梯度 下 降 算 法 相 比 , 它 
也 存在 两 点 不 足 。 首 先是 在 训练 数据 规模 较 小 的 问题 中 ,随机 梯度 下 降 算 法 的 时 间 复 杂 度 
优势 并 不 明显 ,而 其 稳定 性 却 不 如 梯度 下 降 算法 ,多 次 运行 随机 梯度 下 降 算法 有 可 能 会 得 出 
完全 不 同 的 结果 。 其 次 是 随机 梯度 下 降 算法 从 初始 到 算法 收敛 所 需 的 步 数 较 多 。 由 于 在 随 
机 梯度 下 降 算法 中 并 不 能 保证 每 个 循环 都 能 降低 目标 函数 的 值 ,所 以 随机 梯度 下 降 算 法 的 
收敛 速度 比 梯度 下 降 算法 慢 。 尽 管 随机 梯度 下 降 算法 的 每 一 次 循环 比 梯度 下 降 算法 耗 时 
少 ,但 它 可 能 需要 更 多 的 循环 次 数 才能 收敛 。 

明确 了 梯度 下 降 算法 与 随机 梯度 下 降 算法 各 自 的 特点 ,在 实际 应 用 中 就 应 当 根 据 待 求 
解 问题 的 特性 及 要 求 选择 合适 的 优化 算法 。 通 常 ,如 果 数 据 规模 不 大 ,梯度 下 降 算法 较为 合 
适 ;而 在 数据 规模 较 大 的 情况 下 ,随机 梯度 下 降 算 法 是 更 好 的 选择 。 

通过 以 上 对 梯度 下 降 算法 与 随机 梯度 下 降 算法 的 对 比 ,由 此 产生 的 一 个 问题 是 : 能 否 
设计 一 个 折 中 的 算法 以 兼 具 二 者 之 长 。 对 于 这 个 问题 ,一 个 可 能 的 算法 是 : 取 定 一 个 常数 
B. 在 随机 梯度 下 降 的 过 程 中 ,每 次 随机 选取 B 条 训练 数据 并 沿 着 这 B 条 数据 上 的 经 验 损失 
梯度 的 反方 向 更 新 参数 值 。 这 个 算法 在 时 间 复 杂 度 上 优 于 梯度 下 降 算法 , 且 在 稳定 性 上 优 
于 随机 梯度 下 降 算 法 , 兼 具 二 者 之 长 。 这 个 算法 被 称 为 小 批量 梯度 下 降 算 法 。 

图 4.15 是 小 批量 梯度 下 降 算法 的 完整 描述 。 其 中 ,随机 选取 的 每 批 数 据 的 个 数 B 是 算法 
的 一 个 参数 。 在 每 一 轮 循环 中 ,算法 都 随机 选取 B 条 训练 数据 (x ,yy Q6 Ly ues 
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(xy )。 在 这 B 条 数据 上 经 验 损失 的 梯度 为 


B 
D VE (he (x? ) y? ) (4.14) 
r-1 


算法 沿 着 式 (4. 14) 中 梯度 的 反方 向 调整 w 的 值 。 


小 批量 梯度 下 降 算 法 
w= O, Wom 一 0 
fort 一 1,2,…,N: 
Sample ( x^? , y? ) , (x2? py), (xp? , yp? ) 一 S 


t= aet 
NT 
wew- pg Vhs QU ) y" ) 
名 


Wam 7 Wan tW 


return W = Wun/N 


图 4.15 小 批量 梯度 下 降 算法 


例 4.8 线性 回归 问题 的 小 批量 梯度 下 降 算 法 。 

图 4. 16 是 线性 回归 问题 的 小 批量 梯度 下 降 算 法 实现 。 算 法 在 第 9 一 11 行 随机 选 出 B 
条 训练 数据 。 第 12 一 14 行 计算 选 出 的 B 条 数据 上 的 经 验 损失 梯度 ,并 更 新 w 的 值 。 对 比 
图 4. 16 与 图 4.4、 图 4.11 可 以 看 出 ,线性 回归 问题 的 小 批量 梯度 下 降 算法 是 梯度 下 降 算法 
与 随机 梯度 下 降 算 法 结合 的 产物 。 


machine_learning.lib.linear regression mbgd 
1 import numpy as mp 


3 class LinearRegression: 


4 def fit(self, X, y, eta 0-10, eta 1-50, N= 3000, B- 10): 
S m, n- X.shape 
6 w- np.zeros ((n,1)) 
7 Self.w=w 
8 for t in range (N): 
9 batch- np.randm.randint (low= 0, high-m, size=B) 
10 X batch- X batch] .reshape B,- 1) 
n y batch- y batch] .reshape (B,- 1) 
12 eX batch.dot (w)— y batch 
13 g-2* X batch.T.dot (e) /B 
14 w-w-eta 0* g/(t*eta 1) 
15 self.wk-w 


4.16 线性 回归 问题 的 小 批量 梯度 下 降 算法 
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16 self.w/-N 

x 

18 def predict (self, X) : 

19 return X.dot (self.w) 


4.16 (8b 


以 上 介绍 的 随机 梯度 下 降 算法 是 针对 经 验 损失 最 小 化 算法 的 目标 函数 。 该 算法 也 很 容 
易 推广 到 带 有 :正则 化 因子 的 目标 函数 中 。 一 个 带 有 Le 正则 化 因子 的 目标 函数 可 以 表达 
为 如 下 形式 
210. ) y? yc wl? — L5 pas o)? yea lwl] 018 


muc 
在 一 条 训练 数据 (x ,y” ) 上 , 式 (4.15) 中 的 目标 函数 损失 为 1(h, (x? ) y? JHA |w? M 
而 该 损失 的 梯度 有 如 下 形式 : 


VC (hs (x? ) y? JHA |w? )= VE (h, (x? ) y? z+ 2Aw (4. 16) 
由 此 可 见 , 只 需 将 图 4. 10 中 mw 的 更 新 公式 改 为 
we w— (LU ) y? )+ 2aw ) (4.17) 


即 可 得 到 Lo 正则 化 的 经 验 损失 最 小 化 目标 函数 的 随机 梯度 下 降 算 法 。 
再 来 看 Li 正则 化 的 经 验 损失 最 小 化 目标 函数 : 
EP ) ,yo ) 十 1|w| = 1» Us (x? ) y? )2-A|w] ] (4.18) 
式 (4.18) 中 的 目标 函数 不 可 微 ,需要 用 次 梯度 来 代替 梯度 。 在 式 (4. 8) 中 已 经 论证 了 — 
Sign(w) 是 |w| 的 一 个 次 梯度 ,因此 只 需 将 图 4. 10 中 w 的 更 新 公式 改 为 
w w— 5, (M(h, (x? ).y? )+2ASign(w)) (4. 19) 
即 可 得 到 L, 正则 化 的 经 验 损失 最 小 化 目标 函数 的 随机 梯度 下 降 算法 。 
与 上 述 将 随机 梯度 下 降 算 法 推广 到 带 有 正则 化 因子 的 情形 相同 ,小 批量 梯度 下 降 算法 
也 可 以 推广 到 带 有 正则 化 因子 的 目标 函数 中 ,在 此 不 再 缆 述 。 


4.3 ”牛顿 迭代 算法 


牛顿 迭代 算法 是 一 个 经 典 的 优化 算法 。 许 多 机 器 学 习 算 法 的 优化 部 分 都 可 以 用 牛顿 人 
代 算法 来 实现 。 与 梯度 下 降 算法 相 比 ,牛顿 夫 代 算法 的 优点 是 其 迭代 步 数 较 少 。 其 缺点 是 
需要 计算 目标 函数 的 Hessian 方 阵 , 当 模型 中 的 特征 数 较 大 时 ,可 能 面临 计算 时 间 复 杂 性 的 
挑战 。 


牛顿 迭代 法 的 原始 应 用 是 计算 一 元 函数 的 0 点 。 即 对 于 给 定 函 数 R R Rw ER 
使 得 f(w* ) — 0. 牛顿 迭代 法 的 思想 如 下 : 在 了 任意 一 点 & 处 ,对 函数 三 做 泰勒 展开 ,得 到 
fw) f (u)- f' (u) (sv —u)d- o(w — u) (4. 20) 
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HF, o(w— u) HRF wu 的 低 阶 项 , 即 
nD 


weu wW—u 
BE w 为 函数 /的 0 点 , 即 Fa” ) — 0, YE w — w” 代 入 式 (4.20) 就 得 到 
了 (GO 


w* =u fU) 99 —u) (4.21) 

如 果 令 vm ies 则 w 与 w* 的 差 仅 为 低 阶 项 o(w* 一 x)。 随 后 ,再 用 w 取 代 vw 并 

重复 上 述 操作 ,直至 找到 一 个 足够 接近 0 的 点 。 这 就 是 牛顿 多 代 法 求解 函数 0 点 的 基本 
思想 。 


图 4. 17 描述 了 求解 f (w) — 0 的 牛顿 迭代 算法 。 该 算法 的 参数 e 用 于 控制 解 的 精度 。 
只 要 函数 值 | f Cw) |I e 就 按照 式 (4. 22) 不 断 地 和 迭代 更 新 冯 的 值 。 


í Gv) 
we w Fw) (4. 22) 
求 函 数 0 点 的 牛顿 迁 代 算法 


w=0 
while | f (w) |> €: 
(Cw) 


return w 


图 4.17 求解 函数 0 点 的 牛顿 迭代 算法 


例 4.9 考察 函数 f (w) — w^. Fd 4.18 实现 了 用 牛顿 迭代 算法 来 求 1(w) 的 0 点 。 算 
法 在 第 9 行将 w 的 初始 值 设 为 1. 5。 从 第 10 行 开始 ,只 要 | f (e) | 5 e. 就 不 断 按照 式 
(4. 22) 更 新 w 的 值 。 由 于 广 (w)= 2w. 因此 第 13 行 就 是 式 (4. 22) 的 具体 实现 。 


import numpy as np 
import matplotlib.pyplot as plt 


def f (w): 
retum w**2 


x, y- L1, C] 


epsilon- 0.01 


(€ Oc - 0 UO & Q 9-2 


w--1.5 
10 while abs(f(w))» epsilon: 


图 4.18 求解 f(w)=w? 的 0 点 的 程序 
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1 x.append (w) 

12 y-append (f (w) ) 
B ww £(w)/ (2* w) 
14 print(w) 


图 4.18 (5 


图 4. 19 展示 了 图 4. 18 中 算法 的 计算 过 程 。 从 图 中 可 见 , 牛 顿 迭代 算法 迅速 地 收敛 到 


近似 0 点 。 此 外 ,从 图 中 还 可 以 看 到 牛顿 迭代 算法 的 几何 意义 : 在 每 一 步 选 代 中 ,计算 函数 
在 当前 点 的 切线 与 横 轴 的 交点 并 将 其 作为 下 一 步 搜索 的 点 。 
4.0 


3.54 
3.01 
2.54 
2.01 
L5 
1.04 
0.5 


0.0 


7330 5 -10 ds 00 os 10 15 20 
图 4.19 用 牛顿 迭代 算法 计算 f(w ) = w? 的 0 点 的 过 程 


由 于 计算 一 元 函数 的 最 小 值 可 以 转化 为 寻找 这 个 函数 导数 的 0 点 ,所 以 牛顿 迭代 算法 
可 以 用 来 求解 优化 问题 。 基 于 这 一 思想 ,图 4. 20 是 用 牛顿 迭代 算法 求解 一 元 目标 函数 最 小 
值 的 算法 描述 。 设 下 :有 R> Re 为 一 个 二 阶 可 微 的 一 元 函数 。 算 法 的 目标 是 计算 min Fu), 为 


此 只 需 计 算 导 函数 F" (w) 的 0 点 。 在 式 (4. 22) 中 令 f (w) — F (w), 即 可 获得 如 下 的 双 值 
更 新 公式 : 
paca E d 
w w F (w) (4. 23) 


一 元 优化 问题 的 牛顿 迭代 算法 
w=0 


whileF' (w)> e: 


return w 


图 4.20 一 元 优化 问题 的 牛顿 迭代 算法 
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例 4.10 ZR F(w) — w —w-- 1, K 4. 21 中 的 算法 用 于 计算 F (o) 的 最 小 值 。 该 算 
法 第 4 行 中 的 函数 dF 是 下 的 导数 Fa) = 2w — 1, BF. F'(w)- 2. 58 10 £T BIS X 
(4. 23) 的 具体 实现 。 运 行 图 4. 21 中 的 算法 ,可 得 到 最 优 解 w 一 0. 5。 


def F(w): 
retum w**2- wtl 


1 

2 

3 

4 defdE(w): 

5 retum 2* w- 1 
6 

7 epsilon-0.01 

8 w-0 

9 while abs (dF (w) )> epsilon: 
10 ww- dF (w) /2 

1l print(w) 


图 4.21 计算 wz- w+1 的 最 小 值 


一 元 函数 的 导数 在 高 维 空间 中 对 应 于 多 元 函数 的 梯度 。 相 应 的 二 阶 导数 对 应 于 
Hessian 方 阵 。 由 此 容易 想到 ,图 4. 20 中 的 算法 可 以 推广 到 多 元 优化 问题 。 图 4. 22 是 多 元 
优化 问题 的 牛顿 迭代 算法 描述 。 给 定 函数 下 : 慨 — RR 为 二 阶 可 微 的 元 函数 ,算法 的 目标 是 
计算 minF w). 分 别 将 式 (4.23) 中 的 一 阶 导 数 和 二 阶 导 数 蔡 换 为 梯度 VF (Ow) 和 Hessian 方 


阵 vF). 得 到 如 下 的 w 值 更 新 公式 : 
Am 一 VYFCOOmVFCOw (4. 24) 


多 元 优化 问题 的 牛顿 迭代 算法 

w= 0 

while | VF(W || > e: 
w-—w—VFO»" VF(w) 


returnw 


图 4.22 多 元 优化 问题 的 牛顿 迭代 算法 


例 4.11 线性 回归 问题 的 牛顿 迭代 算法 。 

在 及 个 样本 特征 的 线性 回归 问题 中 ,目标 函数 为 均 方 误差 Fw) = | Xw —Y ]* . RA 
牛顿 迭代 算法 求解 相应 的 优化 问题 。 选 取 w 的 初始 值 为 0, 则 有 VF(0)——2 X" y. H 
VF(0)= 2X"X. RERO. 24) 更 新 参数 w, 可 以 得 到 

w —— VF (0)! VF(0)— (X'X)' Xy 
这 个 表达 式 说 明 : 如 果 将 w 的 初始 值 选 为 0, 则 牛顿 迭代 算法 只 需 一 步 就 收 化 了 。 而 且 , 用 
牛顿 迭代 算法 得 到 的 解 w 就 是 正规 方程 的 解 。 

根据 例 4. 11 的 结论 ,可 以 认为 正规 方程 算法 是 牛顿 迭代 算法 在 线性 回归 中 的 具体 
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应 用 。 


4.4 坐标 下 降 算 法 


坐标 下 降 算法 是 另 一 类 十 分 常用 的 机 器 学 习 优 化 搜索 算法 。 在 Sklearn 工具 库 中 ,许多 
重要 的 机 器 学 习 算 法 都 提供 用 坐标 下 降 算法 求解 的 选择 ,例如 Lasso 回归 与 支持 向 量 机 等 。 
坐标 下 降 算法 有 两 个 最 为 重要 且 优 于 梯度 下 降 算法 的 应 用 场合 。 第 一 个 场合 是 梯度 不 存在 
或 梯度 函数 较为 复杂 而 难于 计算 。 此 时 ,坐标 下 降 算法 是 一 个 比 梯度 下 降 类 算法 更 为 简便 
且 易于 实现 的 算法 。Lasso 回归 就 是 一 个 这 样 的 例子 。 第 二 个 场合 是 需要 求解 带 约束 的 优 
化 问题 。 梯 度 下 降 类 算法 都 是 针对 无 约 东 的 优化 问题 ,而 坐标 下 降 算 法 可 以 用 来 求解 带 约 
东 的 优化 问题 。 支 持 向 量 机 的 对 偶 优 化 问题 就 是 一 个 这 样 的 例子 。 
坐标 下 降 算法 是 一 个 迭代 搜索 算法 。 在 搜索 过 程 中 的 每 一 步 , 该 算法 都 选取 一 个 要 调 
整 的 坐标 分 量 , 且 固定 参数 的 其 他 各 分 量 的 值 。 然 后 , 沿 着 选取 的 分 量 的 坐标 轴 方 向 移动 到 
该 方向 上 目标 函数 值 最 小 的 那个 点 。 如 此 循环 使 用 不 同 的 坐标 轴 方 向 ,直至 沿 任何 一 个 坐 
标 轴 移 动 都 无 法 降低 目标 函数 值 为 止 。 

例 4.12 考察 二 元 目标 函数 Fw) — 好 十 xz。 设 求 解 目标 的 可 行 区 域 为 单位 正方 形 
W —[0.1]X [0.1] C EK. [8 4. 23 展示 出 函数 
Fow) 的 等 高 线 图 。 在 该 图 中 ,目标 函数 在 每 条 弧 
线 上 的 取 值 均 相 等 。 函 数值 从 右上 角 到 左下 角 依 0.1) w®=(1,1) 
次 递减 。 

设 算法 取 初 始 值 w" = (1,1)。 坐 标 下 降 算法 
首先 选取 坐标 分 量 vos s 同时 将 坐标 分 量 vos 的 值 固 
EH wP — 1。 此 时 ,从 图 4. 24 可 以 看 到 , 沿 w 坐 
标 轴 方 向 移动 至 (0,1) ,将 最 大 程度 地 降低 目标 函 
数 的 值 。 因 此 ,坐标 下 降 算法 移动 至 w = (0.1). 
接 下 来 轮 到 坐标 分 量 zw 。 此 时 ,算法 固定 wi? 一 
0, TÉ ws 坐标 轴 方 向 移动 至 (0.,0), 将 最 大 程度 地 Fw)=w? + wi 
降低 目标 函数 值 。 因 此 ,算法 移动 至 w2 一 (0,0)。 图 4.23 Fw) = w+ wit AER 

接 下 来 ,算法 发 现 , 无 论 沿 任何 坐标 方向 移动 ， 

都 将 增 大 目标 函数 值 。 至 此 ,算法 终止 。 显 然 ,在 这 个 简单 的 例子 中 ,坐标 下 降 算法 成 功 地 
找到 了 最 优 解 。 

例 4. 12 的 简单 问题 直观 地 展示 了 坐标 下 降 算法 的 搜索 过 程 。 接 下 来 ,对 于 一 般 的 问题 
描述 坐标 下 降 算 法 。 在 此 之 前 ,需要 定义 有 关 的 向 量 记号 如 下 。 给 定 w E 恨 , 对 任意 1< 
j Sn. 定义 Wi — (wi sw tma wj ette) 为 w 中 除 第 j 个 分 量 外 的 其 他 各 分 量 构 成 
的 向 量 。 对 任意 ER, 定义 (uw; ) — (us e etwa suwas w) 为 将 w 的 j 个 分 
量 换 成 u 所 构成 的 向 量 。 


(1,0) 
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w™=(0,1) w?-(1,1) w®=(1,1) 
w™=(0,1) 
w®=(0,0) (1,0) w®=(0,0) 


F(w)=w} + wi 


4.24 坐标 下 降 算 法 的 搜索 过 程 


设 优 化 问题 的 目标 函数 为 : 慨 一 R 求解 的 可 行 域 为 W 和 民 。 坐标 下 降 算法 的 任务 是 
求解 一 个 带 约束 的 优化 问题 min FCw)。 取 定 初始 值 w = 0。 然后 ,坐标 下 降 算法 开始 其 迭代 
循环 。 算 法 依次 按照 rw ,ws enn ,vw 的 坐标 顺序 优化 相应 坐标 轴 方向 上 的 目标 函数 值 。 假 
定 当前 的 参数 为 w。 对 取 定 坐标 分 量 < j o0 v 坐标 下 降 算法 固定 除 w 外 的 其 他 坐标 
分 量 的 值 ,然后 沿 着 第 j 个 坐标 方向 移动 ,寻找 能 最 大 限度 地 减 小 目标 函数 值 的 zy ， 即 


wW = irean P (uw) (4. 25) 


并 将 下 一 轮 搜索 的 参数 值 更 新 为 w < Ger ,w_,)。 从 上 述 算法 描述 中 可 以 看 出 ,如 果 式 
CA. 25) 中 的 单 变量 优化 问题 较 易 求解 , 则 坐标 下 降 算法 在 此 情况 下 就 具有 优势 。 

坐标 下 降 算法 的 详细 描述 如 图 4. 25 BER. EFIE 一 B 是 一 个 元 函数。 坐标 下 降 算 
法 的 任务 是 mipF(w), 其 中 W C R 为 可 行 域 


坐标 下 降 算 法 

一 0 

fort 一 1,2,…,N: 
j — t mod n 


w =  argmin F(u.w.;) 
uem (uw_ DEW. 


we (w sw) 


return w 


图 4.25 坐标 下 降 算法 


容易 看 出 ,在 坐标 下 降 算 法 的 每 一 步 循环 中 都 有 Fu; wu) F (ww) — Fw). iX 
说 明 , 坐 标 下 降 算法 的 每 一 次 循环 都 确实 使 目标 函数 值 下 降 了 。 
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例 4.13 Lasso 回归 问题 的 坐标 下 降 算法 。 
在 Lasso 回归 问题 中 ,目标 函数 为 


F(w) = y» (x? ) — y? )? /m 4- A| w| 
可 行 区 域 为 W = WR. 在 实现 坐标 下 降 算法 时 ,需要 对 任意 坐标 方向 j (1j n) 计算 
相应 的 单 变量 优化 问题 : 


wj 


如 果 用 /zx) 表 示 单 变量 函数 下 (wx,w-)), 则 可 以 将 / (wu) 写成 如 下 形式 : 


= argmin F (u,w-;) (4.26) 


S= 15] qua +wx — y? HA | u HA | was | 
i=l 
为 了 简化 记号 , 令 eP = Owx9»)—y?. W 
Y 1 S OD G Q2 
fe) 2 Qux? +e?) H- A |u |d- A | w-, | (4. 27) 
i=l 


RA. 27) 5E XL. f(u) 是 一 个 凸 函数 ,但 它 在 0 点 不 可 微 。 可 微 凸 函数 的 最 优 解 有 简明 
的 判定 准则 (附录 A 引 理 A. 3. 5)。 推 论 4. 2 将 这 个 判定 准则 推广 到 目标 函数 不 可 微 的 
推论 4.2 i /了 > RR 为 一 个 是 函数 。/(u* )— min fu) 的 充分 必要 条 件 为 0 € 
If) 其中, If) 为 /在 u” 的 次 梯度 集合 。 
在 式 (4.27) 中 ,根据 推论 4.2, 如 果 定 义 
ES 2» (Py. B= 2 af? ef? (4.28) 
则 次 梯度 f (u) 有 如 下 形式 : 
laju +B +a}, 如 果 二 0 
2f(u)— [iaaa ta 如 果 = 0 (4. 29) 
{aju 十 BA ， 如果 二 0 
如 果 要 求 0 €2f(u' ) . 则 x ”必须 满足 一 定 的 条 件 。 首 先 可 以 注意 到 ,根据 式 (4. 28) 中 
aj 的 定义 ,必然 有 w 二 0。 接 下 来 对 局 做 分 类 讨论 。 
。 当 8B 一 一 A 时 ,如 果 w* — 0. 则 唯一 的 次 梯度 wu 十 Bj 一 4 二 0; 如 果 x = 0, WAE 
意 次 梯度 都 属于 区 间 [8; 一 4.B; 十 4]， 从 而 均 小 于 0。 由 此 可 知 ,唯一 的 可 能 性 是 
u' 20,4 u* 2 0 时, f 有 了 唯一 的 次 梯度 a;u” B, CA. 因此 ,如 果 要 求 0 € 
9f(u”)， 则 w” 应 满足 如 下 条 件 : 


。 当 B44 时 ,可 以 类 似 地 得 到 ,如 果 要 求 0 € 2 / u). W u^. 应 满足 如 下 条 件 : 
aju* +B—A=0 
fea «0 
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由 此 可 得 wu* ——8 —25, 


。 当 一 4 过 B 三 4 时 ,如 果 w” — 0. 则 唯一 的 次 梯度 aju 十 B —A — 05 MR u^ 二 0， 
则 唯一 的 次 梯度 a; u* 十 B 十 人 二 0。 因 此 ,只 有 当 x 二 0 时 ,0 €2f(u* )=[B 一 4， 


B; A]. 
综合 上 述 分 类 讨论 ,可 以 得 到 如 下 结论 : 如 果 要 求 0 EIS), 则 有 
-4, mE p 二 一 4 
ut 一 0， 如 果 一 + 过 Bp 壹 4 (4. 30) 


-BA mgpA 


aj 
定义 4.2 (GERI LER IO ”对 于 给 定 的 1: ERR，, 称 函数 S, : R> R 
ZX 一 t， ÜUüRrt 
S, (x)— 0, 如 果 一 +: 过 zx 过 1 (4. 31) 
rct, 如 果 工 二 一 z 
为 一 个 以 1 为 阅 值 的 柔和 阅 值 函数 。 
采用 式 (4. 31) 的 柔和 阅 值 函数 ,可 以 重新 描述 最 优 解 的 条 件 。 如 果 0 EIS, W 
u* = Sy, (一 B/ aj). EHE EXE ABE «E Lasso 回归 问题 的 坐标 下 降 算法 的 每 一 次 循环 中 ,应 
当 取 
wi = argmin F(usw-i)= Sy, (—B/ aj) (4. 32) 
图 4. 26 是 Lasso 回归 问题 的 坐标 下 降 算 法 实现 。 该 算法 的 第 7 一 13 TERR A IL fH 
函数 。 第 17 行 对 所 有 j 统一 计算 式 (4.28) 中 的 o; 。 在 第 19 行 开 始 的 循环 中 依次 处 理 每 一 
分 量 。 其 中 ,第 20 行 在 第 1 次 循环 中 处 理 分 量 j — tAn, 第 21 行将 w 的 第 j 个 分 量 设 为 0 
来 模拟 wj. 第 22 行 对 所 有 i 统一 计算 e?? ,第 23 行 计算 式 (4.28) 中 的 ,第 24 行 利用 柔和 
阅 值 函数 计算 式 (4. 32)。 


machine learning.lib.lasso od 
import numpy as np 


1 

2 

3 class lasso: 

4 def init — (self, Ienbda- 1): 
5 self.Lenbda- Lanbda 

6 

Ü def soft. threshold (self, t, x): 
8 ift: 

9 return x- t 


图 4.26 Lasso 回归 问题 的 坐标 下 降 算法 
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10 elif--t: 

n retum 0 

12 else: 

13 return xtt 

14 

15 Gef fit (self, X, y, N= 1000): 

16 m,n-X.shape 

5 alpha-2* np.sum(9*2, axis-0)/m 

18 w= np.zeros (n) 

19 for t in range(N) : 

20 j=tėn 

pal [j]=0 

2 e j-X.dot (w.reshape (- 1,1))- y 

23 beta j-2* X :, j].dot(e j)/m 

24 wL j]= self.soft threshold(self.Ienbda/alpha j], 
-beta j/alphd j]) 

25 Self.w-w 

26 

27 def predict (self, X): 

28 return X.dot (self w.reshape (- 1,1)) 


图 4.26 (5 


在 图 4. 26 所 示 的 算法 中 , 式 (4. 26) 中 的 单 变 量 优化 问题 有 形式 简明 的 最 优 解 。 因 此 ， 
对 于 Lasso 回归 问题 而 言 ,坐标 下 降 算法 是 一 个 合适 的 优化 算法 。 坐 标 下 降 算法 的 另 一 个 
应 用 场合 是 带 约束 优化 问题 。 在 6. 2 节 的 支持 向 量 机 的 SMO 算法 中 ,将 详细 阐述 坐标 下 降 
算法 在 带 约束 优化 问题 中 的 应 用 。 


小 结 


取 定 模型 假设 与 损失 函数 之 后 ,经 验 损失 最 小 化 算法 将 一 个 监督 式 学 习 问题 转化 为 相 
应 的 优化 问题 。 本 章 介绍 了 在 机 器 学 习 中 最 常用 的 4 类 优化 算法 。 

梯度 下 降 算法 是 最 经 典 的 优化 算法 。 它 的 原理 直观 ,而 且 当 目标 函数 梯度 有 明确 表达 
式 时 ,梯度 下 降 算法 的 实现 也 十 分 简单 。 梯 度 下 降 算法 还 可 以 推广 为 能 处 理 不 可 微 目标 函 
数 的 次 梯度 下 降 算法 。 梯 度 下 降 算法 的 缺点 是 每 次 更 新 参数 值 时 需要 计算 所 有 训练 数据 上 
的 经 验 损失 ,这 是 一 个 耗 时 的 过 程 。 随 机 梯度 下 降 算法 由 此 应 运 而 生 。 该 算法 每 次 随机 选 
取 一 条 训练 数据 ,并 计算 该 数据 上 的 经 验 损失 梯度 。 当 数据 规模 足够 大 时 ,在 随机 选取 的 数 
据 上 的 经 验 损失 梯度 可 以 良好 地 近似 整体 经 验 损失 梯度 ,因此 可 以 节省 大 量 不 必要 的 计算 
时 间 。 然 而 , 当 数 据 量 不 足 时 ,随机 梯度 下 降 算法 的 稳定 性 不 如 梯度 下 降 算 法 ,因而 在 许多 
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实际 应 用 中 ,往往 采取 小 批量 梯度 下 降 算 法 作为 二 者 的 折衷 。 
除了 以 上 所 说 的 梯度 类 搜索 算法 之 外 ,本 章 还 介绍 了 和 牛顿 迭代 算法 和 坐标 下 降 算法 。 
这 两 类 算法 都 将 在 后 续 章节 中 展现 出 它们 的 威力 。 


习题 


4.1 考察 一 元 目标 函数 政 (w) 二 wi’ 一 w 十 1。 设 初始 值 w= 二 0。 请 给 出 梯度 下 降 算法 在 
最 小 化 该 目标 函数 下 时 的 搜索 轨迹 。 

4.2 考察 一 元 目标 函数 政 (w) 二 (w 一 1)*。 设 初始 值 w — 0, 请 给 出 牛顿 迭代 算法 在 
最 小 化 该 目标 函数 下 时 的 搜索 轨迹 。 

4.3 请 证 明 以 下 次 梯度 的 性 质 。 设 FGR 是 n 元 实 函 数 。 

(D 如 果 FO) — AGO. Vw ER, 则 9F(w) 一 (ou:uEaGCw))。 

(20 如 果 FO) = GOD +R(w), Vw ER , VIJ2FCw) — (o -u:iv€ 9GCO!) .u€ ORC) ) 

4.4 试 述 如 何 用 次 梯度 来 代替 梯度 ,将 随机 梯度 下 降 算 法 与 小 批量 梯度 下 降 算 法 推广 
到 目标 函数 不 可 微 的 情形 。 对 Lasso 回归 问题 ,如 何 用 上 述 推广 的 随机 梯度 下 降 算 法 与 小 
批量 梯度 下 降 算法 求解 ? 

4.5 本 章 中 关注 的 是 最 小 化 问题 。 然 而 ,梯度 下 降 算法 也 可 以 用 于 最 大 值 的 计算 问 
题 。 有 时 也 称 计算 最 大 值 的 梯度 下 降 算 法 为 梯度 上 升 算 法 。 设 FIR 一 RR 是 一 个 元 函数 。 
请 描述 关于 计算 最 大 值 max F(w) 的 梯度 下 降 算法 以 及 相应 的 次 梯度 下 降 算法 。 

4.6 感知 器 算法 与 次 梯度 下 降 。 

在 第 2 章 中 学 习 了 感知 器 算法 。 感 知 器 算法 的 目标 函数 为 

max LD) y? Sign((w,x? ) +b) 


wb mi 

这 个 目标 函数 是 一 个 非 处 处 可 微 的 函数 。 请 说 明 如 何 用 次 梯度 下 降 算 法 来 优化 感知 器 
算法 的 目标 函数 。 

4.7 弹性 网 回归 算法 。 

弹性 网 回归 算法 是 线性 回归 问题 的 一 种 正则 化 算法 。 它 结合 了 L 正则 化 与 Lo 正则 化 
两 种 方法 。 它 的 目标 函数 为 


2 
minF(w) = LT|Xw—y) +r lwit (1—r) lwl? 
ver m 


其 中 , 4 宇 0 是 正则 化 因子 .0 三 三 1 是 弹性 系数 。 请 用 坐标 下 降 算法 来 优化 感知 器 算法 中 
的 目标 函数 。 

4.8 鲁 棒 回 归 算 法 。 

第 3 章 的 习题 3.7 中 的 RANSAC 算法 是 一 个 能 够 对 抗 小 量 异 常数 据 干扰 的 回归 算法 。 
鲁 棒 回归 算法 是 另 一 个 这 样 的 算法 。 其 原理 是 , 当 预 测 值 与 真实 标签 相差 较 大 时 ,采用 绝对 
值 损失 ,而 绝对 值 损失 受到 异常 数据 的 干扰 较 小 。 具 体 来 说 , 鲁 棒 回归 算法 的 模型 假设 是 线 
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性 模型 。 损 失 函 数 是 如 下 定义 的 Hubber 损失 : 


w= ly=z|Zae 
l(ysz)— 
On) 2e|y— z|, | y—z|2e 
其 中 , ele > 0) 是 一 个 常数 。 图 4.27 是 当 s — 0.5 时 的 Hubber 损失 的 图 像 。 
Ky, z) 


2.00 
1.75 
1.504 
1.251 
1.004 
0.754 


0.504 


0.254 


h 
i 
0.004 — — r + 4 x 
-2.0 -1.5 -1.0 -05 00 05 10 15 20 


Æ 4.27 es=0.5 时 的 Hubber 损失 


请 用 次 梯度 下 降 算 法 实现 鲁 棒 回 归 算 法 ,并 应 用 于 习题 3.7 的 数据 上 。 

4.9 梯度 下 降 算 法 的 收敛 速度 。 

设 FIR 一 民 是 一 个 nn 元 凸 函 数 。 假 设 下 的 Hessian 方 阵 VF 满足 条 件 aI < VF «pl. 
即 , 方 阵 VF—al 与 BI 一 VF 均 半 正定 。 

CD 请 证 明 : 对 任意 的 w,u € R ,有 


F(u)Z Fw) NFOD" (a — w)* 5 lu— wl (4. 33) 


F(u)< Fw) FG" (u—w)+ É |u— w]? (4.34) 


(2) 采用 梯度 下 降 算 法 计算 函数 F 的 最 小 值 。 取 定 学 习 速 率 为 了 = 1/B。 设 算法 在 第 1 
步 搜索 到 的 点 为 wo 。 根据 梯度 下 降 算 法 原理 有 wi? = w — 9 VF (w° )。 请 利用 式 (4. 34) 
证 明 如 下 结论 : 


Few )« F(w? Ea [VF (w° ) |: (4. 35) 
(3) BE f^ 一 min FCOw) 是 下 的 最 小 值 。 请 利用 式 (4.33)? 证 明 , 对 任意 的 w” , 都 有 
ft SEW) |vr(w? I (4. 36) 


(4) 请 结合 式 (4. 35) 与 式 (4. 360 EB] SEFEXEIIS > 0. 当 


log( (F(w'? )— f* )/e) 
Ee Moaq (3) 


WEGE F(w?)— f^ < e. 此 时 , 称 梯度 下 降 算法 收敛 了 。 
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回归 问题 与 分 类 问题 是 最 重要 的 两 类 监督 式 学 习 问 题 。 第 3 章 中 的 线性 回归 算法 是 用 
于 解决 回归 问题 的 重要 方法 ,但 它 并 不 直接 适用 于 分 类 问题 。 本 章 介 绍 的 Logistic 回归 算 
法 就 是 针对 分 类 问题 的 一 个 重要 算法 。 

Logistic 回归 算法 是 模型 假设 为 Sigmoid 函数 的 经 验 损 失 最 小 化 算法 。 在 第 4 章 中介 
绍 了 求解 经 验 损失 最 小 化 问题 的 优化 搜索 算法 。 本 章 将 在 此 基础 上 详细 介绍 Logistic 回归 
算法 的 相关 知识 。5. 1 节 对 Logistic 回归 做 入 门 性 的 介绍 ,并 阐述 Logistic 回归 目标 函数 与 
模型 假设 的 统计 意义 。5. 2 节 介 绍 Logistic 回归 优化 算法 。 包 括 第 4 章 中 随机 梯度 下 降 算 
法 与 牛顿 迭代 算法 在 Logistic 回归 问题 中 的 具体 实现 。5. 3 节 介 绍 一 般 分 类 问题 的 度量 方 
法 ,着 重 介绍 准确 率 、 精 确 率 与 召回 率 这 3 个 机 器 学 习 中 的 重要 概念 。5. 4 节 介 绍 Softmax 
回归 算法 。 它 是 Logistic 回归 算法 在 多 元 分 类 问题 中 的 推广 。 


5.1 Logistic 回归 基本 概念 


在 实际 应 用 中 ,经 常会 遇 到 根据 特征 对 事物 进行 分 类 的 问题 。 例 如 ,在 第 2 章 中 介绍 的 
六 尾 花 种 类 预测 问题 。 这 个 问题 要 根据 花 苯 长 、 花 苯 宽 、 花 辩 长 以 及 花瓣 宽 这 4 个 特征 ,来 
预测 相应 的 萝 尾 花 是 属于 山 葛 尾 、 变 色 萝 尾 或 弗吉尼亚 高 尾 这 3 类 中 的 哪 一 类 。 可 见 音 尾 
花 预 测 问题 是 一 个 分 类 问题 。 由 于 音 尾 花 有 3 个 种 类 ,因此 这 个 分 类 问题 是 一 个 三 元 分 类 
问题 。 

在 分 类 问题 中 ,每 一 个 样本 都 有 一 个 标签 ,用 于 表示 这 个 样本 所 属 的 类 别 。 定 义 2.2 给 
出 了 在 “元 分 类 问题 中 标签 的 一 般 设 定 方式 。 即 ,每 个 对 象 的 标签 是 一 个 & 维 向 量 。 如 果 
该 对 象 属于 第 ;类 , 则 标签 向 量 的 第 2 位 的 值 是 1, 其余 位 的 值 是 0。 例 如 ,在 音 尾 花 分 类 问 
题 中 ,标签 是 一 个 三 维 向 量 。 如 果 是 山 音 尾 . 则 标签 为 了 — (1.0.00; WREE E SE. 
y 一 (0,1,0) ,如果 是 弗吉尼亚 音 尾 . 则 ”一 (0,0,1) 。 
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TE—^- k 26413 I] rp i X Ce AEREN, Y C [0,1] 为 标签 空间 。 对 任 一 样本 
x€X.id D, 为 x 的 标签 分 布 。 监 督 式 学 习 的 任务 是 对 给 定 的 样本 x BUM E, 5 [y]. 

Wy = Qnesyse o) BE, o, [y] — (Eyo, [i ]HE,-0, [2] * Ey~p, D 1) » ERI 
望 向 量 E-o, [y] 中 的 第 i 4A HREE, o [y;] G — 10.2.7. 有 

E,-p, [] 7 Pr(y — 0)X 0+ Pr(y, = 1)X1 = Pr(y = 1) (5.1) 
因此 , Epp, [y] 的 第 i 个 分 量 为 对 象 属于 第 i 个 类 别 的 概率 。 由 此 可 见 , 分 类 问题 的 监督 式 
学 习 算 法 的 任务 是 对 给 定 的 特征 组 x 预测 对 象 属于 每 一 个 类 别 的 概率 。 

对 于 二 元 分 类 问题 ,除了 定义 2.2 中 给 出 的 标签 的 设 定 方式 外 ,还 有 另外 一 种 简化 数学 
记号 的 0-1 标签 形式 , 即 分 别 以 0 和 1 表示 二 元 分 类 问题 中 的 两 个 类 别 。 在 本 章 中 , 均 按 此 
方式 给 标签 赋值 。 按 照 这 样 的 标签 表示 方式 ,二 元 分 类 问题 的 监督 式 学 习 算 法 的 任务 是 对 
给 定 的 样本 特征 组 x 预测 PrCy = 0) 与 Pr(y 王 1)。 由 于 标签 > 只 有 0 和 1 两 种 可 能 的 取 值 ， 
所 以 必然 有 

Pr(y = 0)+Pr(y=1)=1 (5.2) 
因此 ,可 以 进一步 简化 监督 式 学 习 算 法 的 任务 为 对 给 定 的 样本 特征 组 x 预测 Pr(y = D. 而 
Pr(y = 0) 可 以 由 1 一 Pr(y = 1) 得 到 。 

如 果 将 概率 看 成 一 个 数值 属性 , 则 二 元 分 类 问题 的 概率 预测 就 转化 成 一 个 回归 问题 。 
按 此 思路 ,最 简单 的 方法 是 直接 采用 特征 组 的 线性 回归 模型 来 预测 概率 。 但 这 个 方法 面临 
的 问题 是 预测 的 结果 可 能 会 超出 区 间 [0,1] 。 由 于 预测 的 对 象 是 一 个 概率 ,所 以 [0,1] 以 外 
的 预测 值 都 是 不 符合 要 求 的 。 

为 了 能 够 根据 特征 组 x 来 预测 Pr(y = 1), 需要 寻找 一 个 连续 函数 , 它 既 能 表达 特征 组 
x 与 概率 Proy = 1) 之 间 的 依存 关系 ,又 能 保证 在 特征 变动 时 对 应 的 函数 值 不 超出 区 间 
[0.1]. Sigmoid 函数 就 是 满足 这 种 要 求 的 函数 ,其 表达 式 为 


Sigmoid (1) — 


Dee 1 ER (5.3) 
显然 , 当 上 一 一 co 时 , Sigmoid (1) 99 0; 24 t >+ FE. Sigmoid(1) 一 1。 即 ,对 任意 1 € 

R. Sigmoid 函数 的 取 值 都 不 超出 区 间 [0.1]. ERICH PE f IE 5. 1 所 示 。 

用 Sigmoid 函数 描述 特征 组 x 与 概率 Pr(y 王 1) 之 间 关 系 的 模型 就 是 Logistic 模型 。 

定义 S. 1(Logistic 模型 ) 取 定 特征 组 x ER. 称 模型 


h,(x)- Sigmoid((w.x) ) — (5.4) 


为 一 个 Logistic 模型 ,其 中 w ER 为 模型 的 参数 。 

在 定义 5. 1 中 依然 沿用 第 3 章 中 的 记号 简化 , 即 , 设 每 个 特征 组 x 的 首位 总 是 1, 这 样 可 
以 统一 表示 线性 模型 中 的 系数 与 偏 置 项 。 

根据 Sigmoid 函数 的 性 质 可 知 , 式 (5.4) 中 的 函数 h, (zx) 取 值 在 [0,1] 区 间 内 ,因而 可 以 
将 其 作为 对 Pr(y 二 1) 的 预测 值 。 给 定 样 本 特征 组 x 及 其 标签 y, 采用 Logistic 模型 h, 描述 
特征 组 x 与 概率 Pr(y 王 1) 之 间 的 关系 。 其 中 , n, 预测 x 的 标签 为 1 的 概率 为 
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0.64 


0.24 


0.0 
-100 -75 -50 -25 00 25 590 75 10.0 
5.1 Sigmoid 函数 


1 
hv(Z) 一 Is 


而 它 预测 标签 为 0 的 概率 为 


一 


emm 1 


beme l4 e"? 

为 了 描述 Logistic 回归 算法 ,还 需 指 明 损失 函数 。 

定义 5.2( 对 数 损失 函数 ) ”对 任意 y == (y1syzssyr)sz = (21922924) € [0.1]*. 
对 数 损失 函数 定义 为 


(5.5) 


CENE, ERN (5.6) 
在 一 个 二 元 分 类 问题 中 ,Logistic 回归 算法 就 是 以 式 (5. 4) 的 Logistic 模型 为 模型 假设 ， 
且 以 式 (5.6) 的 对 数 损失 为 损失 函数 的 经 验 损失 最 小 化 算法 。 
注意 到 在 式 (5.6) 的 对 数 损失 函数 中 ,标签 采用 的 是 上 元 分 类 问题 的 向 量 标签 的 形式 。 
对 于 二 元 分 类 问题 ,如 果 标 签 是 采取 0-1 标签 的 形式 , 则 式 (5.6) 的 对 数 损失 函数 可 以 表 
示 为 


L(y sh, GO) ylog h, (x)— (1— y)log(l — A, (x)) (5.7) 
给 定 一 条 训练 数据 (x,y),x € Ry € (0.1). he X Logistic 模型 。 将 式 (5. 4) 和 式 
(5.5) 代 入 式 (5.7) .得 到 模型 , 在 (x,y) 上 的 对 数 损失 函数 为 


(5. 8) 


i 
(0 — »)log 1 TI 


Lhe (0) ) 7 vlog 7 
式 (5.8) 还 可 以 进一步 简化 为 

L(ysh, (x) )— ylog(C14- e"? ) 4- (1— y)logCl 4- e"? ) (5.9) 

Logistic 回归 算法 的 目标 函数 是 由 式 (5. 9) 定 义 的 损失 函数 在 训练 数据 上 的 经 验 损 失 。 


相应 的 算法 描述 见 图 5. 2. 
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Logistic 回归 算法 
输入 : m 条 训练 数据 S = (P Ly) G9 V9 ) ee Qm y )) 


fih: Logistic BEM het Cx) 一 - 1 一 ,使 得 w*”E 代 为 如 下 优化 问题 的 最 优 解 


pe 


m 
》 


min LS] [»?log(14- em )a- (1— y? )log(1 pem )1 
vez M io, 


图 5.2 Logistic 回归 算法 描述 


定义 5.3( 交 叉 精 ) 式 (5. 10) 中 的 Logistic EA HAY H ER PR RUKA ZE IUH 


Dy 


1.5 D/?log(1 e" )4- (1— y? log(1 4 eft )] (5. 10) 
ied 


在 线性 回归 算法 中 的 一 个 基本 假设 是 ,标签 分 布 是 以 模型 预测 值 为 期 望 的 正 态 分 布 。 
因此 ,可 以 根据 正 态 分 布 的 似 然 函数 推导 出 其 均 方 误差 。 交 叉 炉 的 统计 意义 同样 可 以 用 最 
大 似 然 原 则 来 阐述 。 与 线性 回归 算法 类 似 ,Logistic 回归 算法 中 也 有 一 个 关于 标签 分 布 的 基 
本 假设 , 即 标签 分 布 是 伯 努 利 分 布 。 给 定 Logistic 模型 h, 及 特征 样本 x, Logistic 回归 假设 
标签 分 布 D; = Bernoulli hy (1) ÈMA Auv(x) 为 期 望 的 伯 努 利 分 布 。 如 果 用 站 表示 标签 随机 
变量 , 则 YY 的 分 布 有 如 下 参数 化 的 形式 

h(x), 如 果 y==1 
7 i 如 果 y 二 0 NS 
式 (5,11) 等 价 于 
pr(Y = y)= he (x)? (1—h, (x) )'* (5.12) 
因此 ,给 定 训练 数据 (xm y Lx? Ly? ) ee (x ,yo ) Logistic 模型 hv 的 似 然 函 数 为 


Like(w | y?y? yo )— J pr(Y = y?) 
i=l 


= [| h y? Ah (m (5.13) 


与 线性 回归 中 的 处 理 方法 类 似 ,最 大 化 似 然 丽 数 等 价 于 最 大 化 似 然 函数 的 对 数 。 对 式 
(5.13) 取 对 数 , 得 到 


33 [y? log A, (x? j+ (1 — y? )log(1— A, (x? ))] (5.14) 
i=l 


对 式 (5. 14) 取 负 号 ,再 乘 以 常数 1/m, B3 SUE. AI, RKR Co. 14) 等 价 于 最 小 化 交 
SUR. XXL IE SE SURE ETE RE XC 

图 5. 2 算法 的 任务 是 预测 样本 属于 某 个 类 别 的 概率 。 这 种 形式 的 预测 任务 称 为 概率 预 
测 任务 。 在 有 些 实际 问题 中 ,需要 算法 给 出 样本 所 属 类 别 的 判断 。 例 如 ,在 第 2 章 介绍 的 营 
尾 花 问题 中 ,算法 的 任务 是 输出 给 定 昔 尾 花 的 属 种 。 这 种 形式 的 预测 任务 就 称 为 类 别 预测 
任务 。 对 于 类 别 预测 任务 ,常用 的 策略 是 定义 一 个 从 概率 值 映射 到 标签 值 的 函数 ,以 便 在 概 
率 预测 任务 的 基础 上 进一步 做 出 类 别 的 判断 。 这 类 函数 称 为 分 类 函数 。 
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定义 5.4( 最 大 概率 分 类 函数 ) ”在 一 个 & 元 分 类 问题 中 ,给 定 概 率 预 测 模型 h, 即 
h (x) — (h (x) ha (x) shi (X) ) €[041]*. 其 中 ,hi;(x) 为 样本 x 属于 第 i 个 类 别 的 概率 。 
关于 模型 h 的 最 大 概率 分 类 函数 为 
MaxProb, (x) — argmax hi(x) (5. 15) 
式 (5.15) 的 最 大 概率 分 类 函数 是 最 常用 的 分 类 函数 。 顾 名 思 义 ,最 大 概率 分 类 函数 输 
出 具有 最 大 的 模型 预测 概率 所 对 应 的 类 别 , 并 将 其 作为 样本 的 类 别 预测 。 
在 二 元 分 类 问题 中 , 阐 值 分 类 函数 是 另外 一 类 常用 的 分 类 函数 。 
定义 5.5( 阅 值 分 类 函数 ) 在 一 个 二 元 分 类 问题 中 , 设 标签 在 {0,1) 中 取 值 。 给 定 概 率 
预测 模型 h, BI h(x) 表示 特征 组 x 的 标签 为 1 的 概率 。 关 于 模型 h 的 以 1 为 阔 值 的 阔 值 分 
类 函数 为 
1， 如 果 h(x) 宇 1 
Wi i 如 果 h(x) — i tia 
根据 定义 5. 5, 当 模型 预测 标签 为 1 的 概率 高 于 取 定 阅 值 时 , 阐 值 分 类 函数 预测 标签 为 
1 ,否则 预测 标签 为 0。 显然 ,在 二 元 分 类 问题 中 ,最 大 概率 分 类 函数 就 是 阔 值 为 0. 5 的 阔 值 
分 类 函数 。 
分 类 函数 的 概念 将 概率 预测 任务 转化 为 类 别 预 测 任务 。 因 而 可 以 认为 ,分 类 问题 的 本 
质 依然 是 概率 预测 ,而 类 别 预测 则 是 概率 预测 的 一 个 自然 延伸 。 
本 节 最 后 阐述 Sigmoid 函数 的 统计 意义 ,并 揭示 Logistic 回归 与 线性 回归 的 深层 次 联 
系 。 明 确 这 一 联系 对 于 模型 假设 的 选取 有 着 指导 性 意义 。 在 此 之 前 ,需要 先 介绍 概率 论 的 
相关 知识 。 
定义 5.6( 指 数 分 布 族 ) ” 称 具有 如 下 形式 的 密度 函数 的 概率 分 布 全 体 为 指数 分 布 族 : 
Frast (I )= b(y)e" 9*9, y€R (5.17) 
其 中 , asb, TR 了 为 一 元 实 函 数 , 7 ER 称 为 自然 参数 , a(7) 称 为 对 数 正规 化 子 ,b(y) 称 为 
底层 观测 ,T(y) 称 为 充分 统计 量 。 
在 定义 5.6 中 ,每 一 个 指数 分 布 族 中 的 概率 分 布 都 可 以 用 参数 ya(7).b(y) 和 T(y) 所 
表示 的 式 (5.17) 唯 一 表示 。 
例 5.1 设 D=N(ywo) 是 一 个 期 望 为 标准 差 为 o WESS. 不妨 设 o — 1。 由 此 
可 知 , D 的 密度 函数 为 


iy LL eee (5.18) 
f(y) dum . 
FBERG. 17) 中 取 如 下 参数 : 

)—H (5.19) 

a(p) — 3/2 (5. 20) 
1 E 

b(y)— » 5.21 

(Qv) x ( ) 


Tig. 65. 22) 
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则 可 以 验证 式 (5. 18) 中 的 f (y 8 IX Co. 17) 中 的 fuu (y)。 可 见 , 正 态 分 布 属于 指数 分 布 
族 。 且 由 式 (5.19) 可 知 ,自然 参数 7 恰 为 正 态 分 布 的 期 望 y。 在 线性 回归 中 ,假定 4 是 x 的 线 
性 函数 ,于 是 自然 参数 了 是 特征 的 线性 函数 。 

例 5.2 Ut D — Bernoulli (p) Jj p 为 期 望 的 伯 努 利 分 布 。 相 应 地 , D 的 密度 函数 
如 下 : 


b. wm y=1 


fo»)- 1—p. Ryo 
若 在 式 (5. 17) 中 取 如 下 参数 : 
1= g7 (5.23) 
a(3)— log(1-- e") (5. 24) 
b(»)—1 (5. 25) 
T(y)=y (5. 26) 


则 可 以 验证 ,对 任意 yE{0,1),/(y) 恰 为 式 (5.17) 中 的 Sposa (y)。 可 见 , 伯 努 利 分 布 属于 指 
数 分 布 族 。 

例 5. 2 揭示 了 Sigmoid 函数 的 统计 意义 。 从 式 (5. 23) 可 推导 出 
显然 , 式 (5. 27) 的 右 端 就 是 Sigmoid 函数 。 即 ,一 个 伯 努 利 分 布 的 期 望 p 是 自然 参数 5 的 
Sigmoid 函数 。 

如 果 假 设 自 然 参 数 是 特征 x 的 线性 函数 , 即 , 7 — (wx), 则 根据 式 (5. 27) ,有 


UN. T 
p= owe (5.28) 


p= (5. 27) 


式 (5. 284579 Logistic 模型 。 

从 式 (5.19) 和 式 (5.28) 可 知 ,线性 回归 与 Logistic 回归 对 自然 参数 有 相同 的 假设 。 即 ， 
给 定 特 征 组 x, 自然 参数 7 为 x 的 线性 函数 。 由 于 监督 式 学 习 中 的 模型 预测 的 是 标签 分 布 的 
期 望 ,所 以 对 线性 回归 而 言 ,标签 分 布 的 期 望 为 了 一 《w:x)。 这 是 一 个 线性 模型 。 对 Logistic 


回归 而 言 ,标签 分 布 的 期 望 为 也 一 Ls. 这 就 是 Logistic 模型 。 因 此 ,指数 分 布 
e 1 十 e 


族 和 对 自然 参数 的 线性 假设 是 Logistic 回归 与 线性 回归 的 深层 次 联系 。 

通过 上 述 对 Logistic 回归 与 线性 回归 的 深层 次 联系 的 分 析 , 可 以 总 结 出 模型 假设 的 选 
取 原 则 : 如 果 假 设 标签 分 布 D. 是 某 个 指数 分 布 族 中 的 概率 分 布 , 则 可 以 将 D, 的 期 望 
Ep, [y] 写成 自然 参数 7 的 函数 A 刀 。 设 自然 参数 — wx) 为 特征 组 x 的 线性 函数 ,就 
nf ELS SERE BLUE he (x) — h (9) — h (Or )。 这 一 原则 可 以 帮助 机 器 学 习 算法 设计 者 根 
据 对 标签 分 布 灵 活 多 样 的 假设 来 选择 相应 的 模型 ,而 不 局 限于 线性 函数 或 者 Sigmoid 
函数 。 
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5.2 Logistic 回归 优化 算法 


本 节 介 绍 求解 Logistic 回归 问题 的 优化 算法 。 首 先 用 梯度 下 降 与 随机 梯度 下 降 算 法 求 
解 Logistic 回归 问题 。 然 后 ,介绍 牛顿 迭代 算法 在 Logistic 回归 问题 中 的 应 用 。 这 3 类 算法 
都 是 常用 的 求解 Logistic 回归 问题 的 优化 算法 。 

梯度 下 降 算 法 的 收敛 性 与 正确 性 是 由 目标 函数 的 凸 性 保证 的 。 因 此 ,首先 证 明 Logistic 
T1 3 05] EL PR ER XE BE s SCRI Je — P in ER. 

定理 5.1 RG. 100 rr ff] 26 SCR JE — P i RC 

证 明 : 只 需 对 每 一 条 训练 数据 (x «y ) 证 明 ylog (dHe? ) + (1— y)logCl +e?) H 
PRÉC. HF y € (0.1). 问题 可 以 进一步 简化 为 : 证 明 log(1+e ^"? ) 55 logC1H- e"? ) 均 
为 凸 函 数 。 由 于 一 《w,x) 与 人 w:x) 均 为 线性 函数 ,所 以 它们 均 为 凸 函 数 。 因 此 ,根据 凸 函 数 
的 性 质 ( 附 录 A 引 理 A. 3. 3) ,只 要 证 明 一 元 函数 / (0) — log (1 十 e') 是 单调 递增 是 函数 即 
可 。 由 于 


Wn E 
f 0) mar? 


f= qua? 
这 就 证 明了 f(£) — logd +e) 确实 是 一 个 单调 递增 凸 函 数 。 

定理 5. 1 PEHE T 2e SCRI s PE , A il PENE TERRE FESTE DES JH FOR ff Logistic 回归 问 
题 。 为 了 清晰 地 描述 梯度 下 降 算 法 Xa EEZ UR TUBE HE o 

y EP yD) Qe? y? ) (c? yo)} 为 任意 取 定 的 一 条 训练 数据 。 根 据 
式 (5.9) 有 


ona (wx) 


e e 
M (yh (x)) X ipera T OTIN Te 
í (5. 29) 
a Te ») x(he (x)— y) 
用 FO) ARX CS. 100 rP 2 SU, AR EEG E H R PE FPE PT 
VF(w) = Il» x? (h, (x'? )— y? ) (5. 30 
i=l 
沿用 第 3 章 中 的 记号 , XM y 分 别 为 如 下 m X n EER m X1 列 向 量 : 
x T VD 
xOT y? 
X-— 3 y og " 
x y? 


并 用 h,(X) 表 示 如 下 m x 1 列 向 量 : 


100 


hs (x? ) 


hw (2) 
ka E 7? 


hy (x? ) 


上 述 记号 ,可 以 将 式 (5. 30) 重 新 写成 


VF(w) = 二 XT (h(x) —y) 
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65.31) 


图 5.3 Æ Logistic 回归 问题 的 梯度 下 降 算 法 实现 。 算 法 中 第 3.4 行 实现 了 Sigmoid K 
数 。 第 6 一 21 行 实现 了 LogisticRegression 类 。 第 7 行 声明 的 fic 函数 中 需要 两 个 参数 : 学 
习 速 率 7 与 搜索 轮 数 N 。 第 10 行 开始 N 轮 搜索 ,第 12 行 实现 了 式 (5. 31) ,第 13 行进 行 梯度 
下 降 搜索 ,并 更 新 wo 

第 16 .17 行 实现 了 predict. proba 函数 , 它 用 训练 好 的 Logistic 模型 来 完成 概率 预测 任 
务 。 第 19 一 21 行 实现 了 predict 困 数 , 它 在 概率 预测 的 基础 上 ,用 阔 值 等 于 0.5 的 阔 值 分 类 
函数 (或 者 说 是 最 大 概率 分 类 函数 ) 来 完成 类 别 预测 任务 。 


def sigmoid (scores) : 
return 1/ (1* np.exp(- scores)) 


class LogisticRegression: 
def fit (self, X, y, eta- 0.1, N- 1000) : 

m, n- X.shape 

w= np.zeros ((n,1)) 

fort in range (N): 
he sigroid(X.dot (w) ) 
g- 1.0/m* X.T.dot (h- y) 
w-w-eta* g 

self.w-w 


defpredict prdba(self, X): 
retum sigroid (X.dot (self.w)) 


def predict (self, X): 
proba- self.predict praba(X) 
retum (proba>= 0.5) .astype (np. int) 


对 分 类 问题 的 Logistic 回归 模型 的 预测 效果 有 多 种 度量 方法 


图 5.3 Logistic 回归 问题 的 梯度 下 降 算法 


。 其 中 ,最 基本 的 度量 方 
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法 是 使 用 式 (5. 10) rna SUE, E 5. 4 中 的 cross entropy RAR E SCIL IS FL SCIL, 


E, 

2 

3 def cross entropy(y true, y pred): 

4 retum rp.average(- y true* rp.log(y pred)- (l- y true) * mp.log(l- y pred)) 


图 5.4 itEXSUBGSEÉE 


例 5.3 山 膏 尾 识别 问题 。 

第 2 章 中 介绍 过 Sklearn 数据 库 中 的 营 尾 花 数据 集 。 数 据 集中 每 一 条 数据 对 应 一 株 音 
EWE HRABRE EXHI ELRGIERSE 4 个 特征 。 每 条 数据 中 还 含有 一 个 表示 竟 
尾 花 属 种 的 标签 。 数 据 集中 的 葛 尾 花 共有 3 个 不 同 的 属 种 : 山 营 尾 、 变 色 昔 尾 以 及 弗 吉 尼 
ERE. 

1L 8 Ee RU EARE S FE 4E S 4 ARESA SE 058 HI 85 FE AE CAS 
集 。 保 留 每 株 营 尾 花 的 4 个 特征 ,但 对 每 株 昔 尾 花 的 标签 作 了 变动 。 如 果 蔚 尾 花 的 属 种 是 
山 营 尾 , 则 标签 值 为 1, 和 否则 标签 值 为 0。 因此 , 山 营 尾 识别 问题 就 成 为 一 个 二 元 分 类 问题 。 
其 标签 形式 为 0-1 标签 。 

图 5.5 中 的 算法 用 图 5. 3 中 的 梯度 下 降 算法 实现 的 Logistic 回归 算法 来 求解 山 蓄 尾 识 
别 问题 。 算 法 中 第 4、5 行 分 别 导入 图 5. 3 中 的 Logistic 回归 算法 与 图 5. 4 Pa ze SCIRE ER CS 
第 7 一 10 行 的 process features 函数 对 特征 组 首位 增补 常数 1, 以 简化 记号 。 第 12 一 17 行将 
Sklearn 数据 库 中 的 车 尾 花 数 据 集 读 出 .并 随机 分 为 训练 数据 与 测试 数据 两 部 分 。 其 中 ,第 
14 行将 标签 变换 成 0-1 标签 形式 。 在 第 20 行 的 模型 训练 中 ,选择 学 习 速 率 7 — 0. 1 及 搜索 
步 数 N —50000, 第 22,23 £HIETEGEATED BUS SE SCRI EC. 38 4118 5. 5 中 的 程序 ,得 到 的 交 
SURG (LJ 0.018, 


1l import numpy as np 

2 fram sklearn import datasets 

3 frm skleam.model selection import train test split 

4 fruanmechire leaming.lib.logistic regression gd import LogisticRegression 
5 import machine learning.lib.classification metrics as metrics 
6 

7 

8 

9 


def process features (X): 
m, n- X.shape 
X-rp.c [mp.ones(m 1)), X] 
10 retum X 
A 


图 5.5 山 草 尾 识别 问 题 的 Logistic 回归 算法 
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12 iris-datasets.load iris() 

13 x-iris "data"] 

14 y (iris "target"]-- 2) .astype (rp. int) .reshape (7 1,1) 

15 X train, X test, y train, y test-train test split(X, y, test size- 0.2, random state- 0) 
16 X train-prooess features(X train) 

17 X test-process features(X test) 


model= LogisticRegression() 

model.fit(X train, y train, eta= 0.1, N= 50000) 
prcba-model.predict prcba(X test) 
entropy-metrics.cross entropy(y test, prcba) 
print ("cross entropy- ()". format (entropy) ) 


B BS t 


B 


图 5.5 (45 


除了 梯度 下 降 算法 之 外 ,还 可 以 用 随机 梯度 下 降 算法 来 完成 Logistic 回归 。 随 机 梯度 


machine learning.lib.logistic regression sod 
1 import numy as np 


3 def sigmid(scores): 


return 1/ (l+ np.exp (- scores)) 


def fit(self, X, y, eta 0-10, eta 1- 50, N- 1000) : 
m, n- X.shape 


w-np.zeros ( (n, 1)) 


4 
5 
6 class LogisticRegression: 
" 
8 
9 


10 self.w-w 

n for t in range(N): 

12 i-np.randcm.randint (m) 
13 x-X i].reshape (1,- 1) 

14 pred- sigmoid (x.dot (w) ) 
15 g-x.T* (pred- Y i]) 

16 w-w-eta 0/(t+eta 1) * g 
好 self.wkt-w 

18 self.w/-N 


图 5.6 Logistic 回归 问题 的 随机 梯度 下 降 算 法 


下 降 算法 在 每 一 步 循 环 中 随机 选取 一 条 训练 数据 ,并 以 该 训练 数据 上 的 经 验 损失 梯度 来 更 
新 参数 值 。 式 (5. 29) 给 出 了 每 一 条 训练 数据 的 经 验 损失 梯度 的 计算 方法 。 由 此 得 到 图 5. 6 
所 示 的 求解 Logistic 回归 问题 的 随机 梯度 下 降 算法 。 
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19 
20 — defpredict proba(self, X): 
2 retum sigwid(X.dot (self.w)) 
22 
23 def predict (self, X): 
24 prdba- self.predict praba(X) 
25 retum (prcba»- 0.5) .astype (np. int) 
5.6 (85 


$5.4 数字 6 识别 问题 。 

第 1 章 对 手写 数字 识别 问题 做 过 一 个 简单 的 描述 。 它 的 数据 集 MNIST 是 美国 国家 标 
准 与 技术 研究 所 收集 的 不 同人 手写 数字 的 图 片 。MNIST 数据 集中 共有 70 000 张 数字 0 一 9 
的 图 片 。 每 一 张 图 片 对 应 于 该 图 片 的 784 个 像素 。 图 片 的 每 一 个 像素 值 由 0、1 之 间 的 灰 度 
值 表示 。 灰 度 值 越 大 ,颜色 就 越 深 。 因 此 ,在 手写 数字 识别 问题 中 ,每 一 张 图 片 对 应 于 一 个 
784 维特 征 组 。 特 征 组 的 每 一 个 分 量 是 在 区 间 [0.1] 中 取 值 的 小 数 。 每 一 张 图 片 都 带 有 一 
个 标签 。 标 答 值 就 是 该 图 片 中 的 数字 。 手 写 数字 识别 问题 是 一 个 十 元 分 类 问题 。 它 的 任务 
是 根据 图 片 灰 度 特征 来 预测 图 片 标签 值 。 

数字 6 识别 问题 是 手写 数字 问题 的 简化 版 本 。 在 数字 6 识别 问题 中 ,依然 采用 MNIST 
数据 集 , 即 每 张 图 片 的 特征 组 仍 为 784 维 像素 灰 度 值 向 量 。 但 每 张 图 片 的 标签 与 手写 数字 
问题 不 同 。 数 字 6 识别 问题 的 标签 在 {0,1} 中 取 值 。 如 果 图 片 中 的 数字 是 6, 则 标签 值 为 1， 
否则 标签 值 为 0。 数 字 6 识别 问题 的 任务 是 根据 图 片 特征 预测 图 片 标签 值 是 否 为 6。 因 此 ， 
数字 6 识别 问题 是 一 个 二 元 分 类 问题 。 可 以 考虑 Logistic 回归 算法 。 

图 5.7 中 的 程序 调用 图 5. 6 的 Logistic 回归 算法 建立 预测 模型 。 第 6 行 从 数据 库 中 导 
出 MNIST 数据 集 。 其 中 , 设 定 one hot 参数 值 为 False, 从 而 取出 的 数据 标签 属于 
{0,1,…,9}。 第 7.8 行 取出 训练 数据 与 测试 数据 。 第 9、10 行将 训练 数据 与 测试 数据 的 标 
签 转 换 成 0-1 标签 形式 : 如 果 原 始 标 签 值 为 6, 则 生成 标签 1, 和 否则 生成 标签 0。 第 12 行 调用 
图 5.6 中 的 Logistic 回归 算法 。 第 13 行 用 3000 步 梯度 下 降 搜索 来 训练 模型 。 运 行 
图 5.7 中 的 程序 ,得 到 交叉 焙 的 值 为 0. 06。 


import numpy as np 

fram tensorflow.examples.tutorials.mnist import input data 

franmechine learning.lib.logistic regression sgd import LogisticRegressicn 
inport machine learning.lib.classification metrics as metrics 


mnist-input data.read data sets("MNIST data/", one hot= False) 
X train, y train-mnist.train.imeges, mnist.train.labels 


2005520 m9n^2 


图 5.7 数字 6 识别 问题 的 Logistic 回归 算法 
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8 X test, y test=mist.test.images, mist.test.labels 
9 y train- (y train-- 6) .astype (np. int) .reshape (- 1,1) 
10 y test- (y test-- 6) .astype (np.int) .reshare (- 1,1) 


12 model-IogisticRegression() 

13 model.fit(X train, y train, eta 0-10, eta 1-50, N= 3000) 
14 prdbe-model.predict proba(X test) 

15 entropy-metrics.cross entropy(y test, prcba) 

16 print ("cross entropy- ()".format (entropy) ) 


图 5.7 (5 


在 第 4 章 的 例 4. 11 中 曾 将 牛顿 迭代 算法 应 用 于 求解 线性 回归 问题 。 作 为 一 个 经 典 的 
优化 算法 ,牛顿 迭代 算法 同样 也 可 用 于 求解 Logistic 回归 问题 。 首 先 ,推导 出 交叉 炉 的 
Hessian FHE. PERG. 29) ,对 任意 训练 数据 (x,y), 有 


oa) 


= e T - T 
VL Oh (x))= X po eem y f xh.) — he (x) )x (5.32) 
所 以 ,根据 Hessian 方 阵 的 线性 特性 ,有 
v FO» = 15 x? hy (x? ) (1 — hy (x? ) a (5.33) 
i=l 
用 和 矩阵 记号 可 以 将 式 (5. 33) 中 的 Hessian 方 阵 表达 为 
VF(w) = JL X"Diagı<icn 人 (5.34) 
其 中 
Diagizie, (he (x? ) (1 — hA, (x? ))) (5. 35) 


是 一 个 m x mH AERE, CHB i T XE fR ROO h (x? ) (1.— h, (x? ))。 

基于 式 (5. 340 rP 2E SUA I] Hessian 方 阵 ,用 牛顿 迭代 算法 实现 的 Logistic 回归 算法 如 
图 5.8 所 示 。 在 图 5. 8 的 算法 中 ,第 14,15 行 用 式 (5. 34) 计 算 Hessian 方 阵 。 第 16 行 计 算 
VF (w? ) VE(w?), 并 用 其 更 新 参数 值 w。 


machine learning.lib.logistic regression nt 
1 import numpy as np 
2 
3 def sigmoid(scores) : 
4 retum 1/ (l+ np.exp (- scores)) 
5 
6 class IogisticRegression: 
7 def fit(self, X, y, N- 1000) : 


5.8 ”用 牛顿 迭代 算法 实现 的 Logistic 回归 算法 
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8 m, n-X.shape 
9 w-np.zeros ((n,1)) 
10 fort in range (N): 
i pred- sigwidX.dot (w) ) 
12 g= 1.0/m* X.T.dot (pred- y) 
13 pred- pred.reshape (- 1) 
14 D-np.diag(pred* (1- pred)) 
15 H-1.0/m* (X.T.dot (D)) .dot (X) 
16 w-w- np.linalg.inv (H) .dot (g) 
17 self.w-w 


19 def predict proba (self, X): 


20 retum sigroid(X.dot (self.w)) 
2 
22 def predict(self, X): 
23 prcba- self.predict proba (X) 
24 return (prcba»- 0.5) .astype (np. int) 
图 5.8 (£5 


与 梯度 下 降 类 算法 相 比 , 牛 顿 欠 代 算 法 的 优点 在 于 其 迭代 步 数 较 少 。 图 5. 9 Té fe S; 
尾 识 别 问题 中 分 别 使 用 牛顿 迭代 算法 与 随机 梯度 下 降 算法 的 迭代 情况 对 比 。 图 中 横 轴 为 搜 
索 步 数 , 纵 轴 为 对 应 步 数 的 交叉 粮 的 值 。 从 图 5. 9(a) 中 可 看 到 ,牛顿 选 代 算法 在 8 步 之 后 就 
Wess BM AS SUN. Wil 5. 9(b) 中 的 随机 梯度 下 降 算 法 需 将 近 50 000 步 才 能 收敛 到 
ELE A AE WE HY SE E M 


0.7 0.7 
0.6 0.6 
0.5 0.5 
0.4 0.4 
0.3 0.3 
0.2 0.2 
0.1 0.1 
0 2 4 6 8 0 100000 200000 300000 400000 500000 600000 700000 
(a) (b) 


图 5.9 山 营 尾 识别 问题 的 牛顿 迭代 算法 与 随机 梯度 下 降 算法 的 迭代 情况 对 比 


牛顿 迭代 算法 的 缺点 是 计算 时 间 复 杂 性 高 。 这 是 因为 ,算法 中 涉及 对 Hessian 矩阵 的 
计算 及 求 逆 。Hessian 矩阵 是 一 个 阶 方 了 泗 , 其 中 为 特征 个 数 。 牛 顿 迭 代 算法 的 时 间 复 杂 
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度 是 O(K n?) , 其 中 开 为 算法 收敛 所 需 的 迭代 步 数 。 尽 管 算法 收敛 所 需 的 迭代 步 数 较 少 ， 
但 在 特征 数 较 多 时 ,牛顿 迭代 算法 的 每 一 步 都 十 分 耗 时 。 因 而 ,牛顿 迭代 算法 总 体 运 行 速度 
相当 缓慢 。 例 如 ,数字 6 识别 问题 中 的 特征 数 为 784, 牛 顿 选 代 算法 对 此 问题 几乎 无 法 求解 ， 
其 耗 时 远 远 高 于 梯度 下 降 算法 与 随机 梯度 下 降 算法 。 


5.3 分 类 问题 的 度量 


在 5. 2 节 介 绍 分 类 问题 的 求解 算法 时 ,都 采用 交叉 炉 来 度量 优化 算法 的 效果 。 从 交叉 
炳 的 统计 意义 可 知 , 它 只 是 一 个 相对 的 度量 。 因 此 ,交叉 炉 可 以 用 于 对 比 不 同 算法 的 效果 ， 
但 它 不 适用 于 判断 单个 算法 的 预测 效果 。 例 如 ,在 例 5. 3 的 山 音 尾 识别 问题 中 ,Logistic 回 
归 算 法 获得 了 0.018 f) E SU. 单纯 从 这 一 数字 不 易 判 断 算法 的 效果 。 因 此 ,本 节 介 绍 分 
类 问题 算法 的 几 个 更 加 直观 的 度量 方法 。 


5.3.1 准确 率 


准确 率 是 用 于 评价 算法 预测 效果 的 简单 度量 方法 , 它 适 用 于 度量 类 别 预测 任务 的 算法 
效果 。 准 确 率 的 大 小 描述 了 算法 对 类 别 预测 的 准确 性 高 低 。 用 一 个 将 逻辑 条 件 值 转化 为 整 
数值 的 示 性 函数 来 计算 算法 的 类 别 预测 准确 率 。 
定义 5.7( 示 性 函数 ) 示 性 函数 10) i (True. False) (0.13 5€ SCA 
l(True) —1 
l(False) —0 
示 性 函数 将 逻辑 真 映射 成 整数 1, 将 逻辑 假 映射 成 整数 0。 在 类 别 预测 时 ,通过 对 示人 性 
函数 值 求 和 ,可 以 得 到 算法 准确 预测 的 样本 数 。 
定义 5.8( 准 确 率 ) 在 二 元 分 类 问题 中 ,给 定 一 组 数据 : 
T = {ay L (x(P ,y(), ee, (x 9 ,09)) 


模型 /在 数据 T 上 的 准确 率 定义 为 


Dae o y?) 
Accuracy; (h ) = m (5.36) 
在 式 (5. 36) 中 ,如 果 模 型 h 对 第 i 条 数据 预测 准确 , 即 预测 值 六 (x*” ) 与 真实 值 y” 相 等， 
则 示 性 函数 值 1 {h(x ) — y? — 1; 否则 , (A (x? ) — y} 二 0。 准确 率 的 直观 意义 十 分 明 
确 : 模型 在 工 中 的 预测 值 与 真实 值 相符 的 比例 即 为 准确 率 。 图 5. 13 是 计算 准确 率 的 算法 。 
例 5.5 数字 6 识别 的 准确 率 。 
在 例 5.4 中 建立 了 数字 6 识别 的 Logistic 回归 预测 模型 。 现 将 图 5. 10 中 accuracy_ 
score 函数 用 于 计算 该 模型 的 预测 准确 率 ,如 图 5. 11 所 示 。 和 运行 图 5. 11 的 程序 ,得 到 
Logistic 回归 算法 应 用 于 数字 6 识别 的 准确 率 为 98%。 
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machine learning.lib.metrics 
1 import numpy as mp 
2 
3 def eccuracy score(y true, y pred): 
4 correct- (y pred-- y true) .astype (np.int) 
5 return np.average (correct) 


图 5.10 计算 准确 率 的 算法 


import numpy as np 

fram tensorflow.exemples.tutorials.mnist import input data 

frm machine leaming.lib.logistic regression sgq import IogisticRegression 
import machine learning.lib.classification metrics as metrics 


mnist- input data.read data sets("MNIST data/", one hot- False) 
X train, y train-mnist.train.imeges, mist.train.labels 

X test, y test-mnist.test.images, mnist.test.labels 

y traim- (y train-- 6) .astype (np.int) .reshape (- 1,1) 

10 y test- (y test-- 6) .astype (np.int) .reshape (- 1,1) 


12 model-IogisticRegression() 

13 model.fit(X train, y train, eta 0-10, eta 1-50, N= 3000) 
14 y pred-model.predict(X test) 

15 accuracy-metrics.accuracy score(y test, y pred) 

16 print ("accuracy- ()".format (accuracy) ) 


图 5.11 M Logistic 回归 算法 计算 识别 数字 6 的 准确 率 的 程序 


用 准确 率 来 度量 算法 效果 的 优点 是 形式 简单 。 其 不 足 之 处 是 容易 受 数据 中 的 标签 分 布 
的 影响 。 例 如 ,在 数字 6 识别 问题 中 ,考虑 如 下 平凡 的 算法 : 对 任意 特征 组 都 预测 标签 为 0。 
由 于 接近 90% 的 数据 对 应 的 标签 确实 为 0, 即 90% 的 图 片上 的 数字 不 是 6, 所 以 上 述 平凡 算 
法 的 准确 率 将 达到 90%! 这 说 明 , 在 一 个 二 元 分 类 问题 中 ,准确 率 受 数据 标签 为 0 与 1 的 比 
例 的 干扰 较 大 。 只 有 在 数据 标签 为 0 与 1 的 比例 接近 的 情况 下 ,准确 率 才 是 一 个 有 效 的 算 
法 度量 。 

5.3.2 精确 率 与 召回 率 

对 于 二 元 分 类 问题 的 类 别 预测 任务 ,度量 算法 的 效果 除了 用 准确 率 之 外 ,还 有 另外 两 个 
ERMITE: 精确 率 与 召回 率 。 


在 一 个 二 元 分 类 问题 中 ,给 定 样本 的 特征 组 x 及 其 标签 y€{0,1}。 将 标签 为 1 的 样本 
称 为 正 采样 ,标签 为 0 的 样本 称 为 负 采 样 。 设 h(x) E{0,1} 为 模型 /对 样本 的 标签 预测 。 将 


liz 
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h Go — 1 EAE BU. Go) —0 称 为 负 预 测 。 

* 如 果 y=1 且 h(x) 二 1, 则 称 该 预测 为 真正 (true positive) 。 

* 如 果 y—0 H 有 h(x) 二 1, 则 称 该 预测 为 假 正 (false positive). 

。 如 果 y—0 且 (x) 二 0, 则 称 该 预测 为 真 负 (true negative). 

。 如 果 y=1 H h(x) 二 0, 则 称 该 预测 为 假 负 (false negative). 

定义 5.9( 精 确 率 与 召回 率 ) ”在 一 个 二 元 分 类 问题 中 ,给 定 一 组 数据 : 

一 

H TP,FP,TN,FN 分 别 表 示 模 型 h 在 数据 集 T 中 的 真正 、 假 正 \ 真 负 、 假 负 的 预测 个 数 , 则 
模型 在 数据 集 T 上 的 精确 率 Precisionr (A ) HUG [lE Recall; (A ) 2: 90 2g 


Precisionr (h ) = Y cpm (5,37) 
Recall; (h) 一 EDEN (5. 38) 


精确 率 的 英文 名 是 precision ,又 称 为 查 准 率 。 在 式 (5. 37) 中 ,分 子 是 真正 预测 数 ,分 母 
是 真正 预测 数 与 假 正 预 测 数 之 和 , 即 模型 h 给 出 正 预 测 的 总 个 数 。 由 此 可 知 , 精 确 率 是 在 预 
测 标签 为 1 的 样本 中 实际 标签 是 1 的 比例 。 

召回 率 的 英文 名 是 recall?, 又 称 为 查 全 率 。 在 式 (5. 38) 中 ,分 子 是 真正 预测 数 , 分母 是 
真正 预测 数 与 假 负 预测 数 之 和 , 即 数据 集 T 中 正 采 样 的 总 个 数 。 由 此 可 知 ,召回 率 是 在 正 采 
样 中 能 被 模型 甄别 出 的 比例 。 

图 5. 12 的 算法 是 精确 率 与 召回 率 计算 的 实现 。 算 法 中 第 3 一 9 行 计 算 精确 率 。 第 4 行 
计算 真正 预测 数 。 设 有 m 条 数据 。 其 中 , y € {0,1}" 是 真实 标签 , z € {0,1}" 是 预测 标签 。 
第 i 条 数据 的 标签 预测 x; 是 一 个 真正 预测 的 充分 且 必 要 条 件 是 x; y = 1。 所 以 ,有 


TP— Nar (5. 39) 
i=] 
算法 中 第 4 行 实现 的 正 是 式 (5. 39) 。 与 式 (5. 39) 类 似 , 可 得 
FP— 5 = (1 一 y) (5.40) 
-1 
FN= >) O-z) y (5.41) 


算法 中 第 5 行 按照 式 (5. 40) 计 算 假 正 预 测 数 。 第 9 行 按照 式 (5. 37) 计 算 精 确 率 。 
第 11 一 17 行 计 算 召 回 率 。 第 13 行 按照 式 (5. 41) 计 算 假 负 预 测 数 。 第 17 行 根据 式 
(5. 38) 计 算 召 回 率 。 


(XX recall 是 一 个 多 义 词 , 除 字面 的 “召回 "意思 之 外 ,还 有 * 记 住 " 与 “识别 ”的 意思 。 召 回 率 的 命名 源 于 信息 检索 
Cinformation retrieval) ,原意 是 让 算法 扫描 一 组 猫 和 狗 的 图 片 ,将 算法 成 功 记 住 狗 的 图 片 的 比例 称 为 recall。 


109 


机 器 学 习 算法 导论 4 


machine learning.lib.metrics 
import numpy as np 


def precision score(y, z): 


TP- (zx y).sum() 


1 

3 

4 

5 FP- (z* (1-y)).sunQ 
6 if TPH FP-- 0: 

7 return 1.0 

8 else: 

9 return TP/ (TP+ FP) 


11 def recall score(y, z): 


12 TP- (zx y) .sum() 

13 EN- ((1- z) * y) .sum() 
14 if TP+ EN-- 0: 

15 retum 1 

16 else: 

17 return TP/ (TP+ EN) 


图 5.12 计算 精确 率 与 召回 率 的 程序 


例 5.6 数字 6 识别 问题 的 精确 率 与 召回 率 。 

在 例 5. 4 中 对 数字 6 识别 问题 已 作 了 详细 的 描述 。 图 5. 7 中 的 算法 训练 出 一 个 模型 h 
来 预测 每 一 张 图 片 表示 数字 6 的 概率 。 图 5. 13 是 MNIST 数据 集 的 10 个 采样 。 按 从 左 到 
右 的 顺序 , /预测 采样 的 数字 是 6 的 概率 分 别 在 [0,0.1),[0.1,0.2),…,[0.9,1) 范 围 中 ， 
即 预测 图 片 数 字 是 6 的 概率 从 左 向 右 越 来 越 大 。 


图 5.13 MNIST 数据 集 的 10 个 采样 


考虑 以 阔 值 分 类 函数 T,(t 一 0.0. 1,0.2,…,0.9) 对 图 5. 13 的 10 个 采样 作 类 别 预测 。 
如 果 刀 预测 图 片上 数字 是 6 的 概率 值 不 小 于 t W Ta 预测 标签 为 1; 否则 ,预测 标签 为 0。 

显然 , 取 上 一 0 时 , Th。 预测 所 有 10 张 图 片 均 为 数字 6。 此 时 ,所 有 数字 是 6 的 图 片 均 被 
甄别 出 了 ,因而 Tao 的 召回 率 为 100%。 但 由 于 只 有 5 张 图 片 确实 是 数字 6, 因 而 Tro 的 精 
确 率 仅 为 50%。 

WER = 0.5. Tros 预测 从 左 向 右 的 第 1 一 5 张 图 片 不 是 数字 6 ,而 第 6 一 10 张 图 片 是 
数字 6, 如 图 5.14 所 示 。 此 时 ,在 5 张 数字 6 的 图 片 中 , Thos 查 出 了 4 张 ,召回 率 是 80%。 
在 5 张 预测 为 数字 6 的 图 片 中 ,有 4 张 确实 是 6, 因而 精确 率 是 80%。 

WMR = 0.8, Tros 预测 最 后 两 张 图 片 是 数字 6 ,其余 均 不 是 ,如 图 5. 15 所 示 。 此 时 ， 
Tros 的 召回 率 是 40% .精确 率 是 10096. 
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Tros 预测 是 数字 6 


nggsgmtiBmEmnmuH 


图 5.14 Th,.o.s 的 预测 结果 


Tros 预测 是 数字 6 


ngsgmmmBEnmnmuHÁ 


图 5.15 Twos 的 预测 结果 


从 例 5.6 可 以 直观 地 理解 召回 率 与 精确 率 的 意义 。 如 果 一 个 算法 的 预测 能 力 好 , 则 在 
被 该 算法 预测 是 数字 6 的 图 片 中 ,预测 正确 的 图 片 应 该 占有 较 大 比例 ;同时 ,在 所 有 是 数字 6 
的 图 片 中 ,预测 正确 的 图 片 也 应 该 占有 较 大 比例 。 然 而 ,精确 率 和 召回 率 是 相互 影响 又 相互 
制约 的 。 通 常 ,一 个 算法 的 召回 率 越 高 , 则 精确 率 就 越 低 ,反之 亦 然 。 图 5. 16 是 例 5. 4 的 数 
字 6 识别 问题 中 的 精确 率 与 召回 率 之 间 的 关系 图 ,图 中 横 轴 是 阔 值 +。 可 以 看 出 , 随 着 阔 值 的 
增长 ,算法 的 精确 率 逐 渐 升 高 ,但 是 召回 率 却 逐 渐 降 低 。 


1.0 


0.8 


0.6 


0.4 


0.0 0.2 0.4 0.6 0.8 
FU 
图 5.16 精确 率 与 召回 率 的 关系 


召回 率 和 精确 率 反映 了 算法 效果 的 两 个 不 同方 面 。 单 一 依靠 精确 率 或 者 召回 率 并 不 能 
较 全 面 地 评价 一 个 算法 的 效果 。 一 般 情 况 下 ,算法 的 精确 率 与 召回 率 是 不 可 兼 得 的 。 在 要 
求 两 者 都 高 的 情况 下 ,通常 是 选择 两 者 的 综合 作为 算法 效果 的 度量 。 调 和 平均 值 F 就 是 召 
回 率 和 精确 率 的 一 个 综合 指标 。 

定义 5. 10( 调 和 平均 值 ) 定义 模型 h 的 精确 率 与 召回 率 的 调和 平均 值 为 


F, (h)- : 


1 (5. 42) 


l 
Precision (h ) d: Recall (A) 
Fi 作为 算法 效果 的 度量 指标 时 .由 于 它 平衡 了 精确 率 和 召回 率 的 影响 ,因而 能 较为 
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全 面 地 评价 一 个 算法 的 效果 。 

需要 注意 的 是 ,在 两 种 情况 下 不 应 当 以 Fi 的 值 来 度量 算法 的 效果 。 第 一 种 情况 是 分 类 
问题 的 假 真 预测 可 能 会 带 来 严重 的 后 果 。 例 如 ,对 飞机 零 部 件 合格 性 进行 预测 ,任何 假 真 预 
测 ( 即 将 不 合格 零件 预测 为 合格 的 ) 都 可 能 带 来 灾难 。 在 这 种 情况 下 ,要 以 精确 率 作为 度量 
来 评价 算法 。 第 二 种 情况 是 分 类 问题 的 假 负 预测 可 能 会 带 来 严重 后 果 。 例 如 ,对 不 及 时 治 
疗 就 有 较 差 预 后 的 疾病 作 早期 第 查 , 任 何 假 负 预测 (即将 疾病 患者 预测 为 健康 的 ) 都 可 能 错 
过 患者 的 最 佳 治疗 时 机 。 在 这 种 情况 下 ,要 以 召回 率 作为 度量 。 


5.3.3 ROC 曲线 及 AUC 度量 


ROC 是 英文 Receiver Operating Characteristic 的 首 字母 缩写 , 意 为 接收 器 工作 特性 。 
其 概念 源 于 信号 探测 理论 。 在 二 元 分 类 问题 中 , ROC 曲线 下 的 面积 AUC Area Under 
Curve) 可 用 于 度量 概率 预测 任务 求解 算法 的 效果 。 

在 一 个 二 元 分 类 问题 中 ,给 定 一 组 数据 T= Cx y) LG? Ly ) e Qr Ly ))， 
并 给 定 概 率 预测 模型 hn。 用 TP (1) . FPCO , TNCO FNO IRR IA, t 28 ES (E 04] 8] (8. 43 PR 
数 Tie(z) 在 数据 集 T 上 的 真正 \ 假 正 、 真 负 、 假 负 预 测 数 。 将 TPR (7) — TP(2)/CTPGO 
FN(1)) 称 为 真正 率 ,将 FPR(t) 二 FP(1)/(FP(1) 十 TN(7)) 称 为 假 正 率 。 

定义 5.11(ROC 曲线 ) ”以 假 正 率 为 横 坐 标 ,以 真正 率 为 纵 坐 标 构成 的 二 维 空间 称 为 
ROC 空间 。 给 定 二 元 分 类 问题 的 概率 预测 模型 h 和 阅 值 :E[0,1]。 将 阅 值 分 类 函数 
Ty, (x) ff] Ae (TPR (t), FPR (t) ) 都 画 在 ROC 空间 里 ,就 构成 模型 h 的 ROC 曲线 。 

例 5.7 数字 6 识别 问题 的 ROC 曲线 。 

考虑 图 5.7 中 的 Logistic 回归 问题 的 随机 梯度 下 降 算 法 。 在 求解 数字 6 识别 问题 时 ， 
分 别 取 搜 索 步 数 N 为 10、50、100、1000, 得 到 相应 的 4 个 模型 。 利 用 图 5. 17 中 的 算法 绘制 
这 4 个 模型 的 ROC 曲线 ,如 图 5. 18 所 示 。 


import numpy as np 
import matplotlib.pyplot as plt 
def threshold(t, prca) : 

retum (proba> —t).astype(np.int) 
def plot roc curve(prcbe, y): 

fer, tpr =[], C] 

for i in range (100) : 

z —threshold(0.01 * i, prdbe) 

def plot roc curve (pra, y): 
10 fpr, tee-[], C] 
1 for i in range(100): 


[C rn 


5.17 绘制 ROC 曲线 
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12 z = threshold (0.01 * i, proba) 
B tp=(y * z).sum() 
14 fp-(Q-y) * z).sm() 
15 tn-(0-y) * (à-2).sm() 
16 fn-(y* (-2z)).sm( 
17 fpr.append(l.0 * fp/ (fp*tn)) 
18 tpr.append(l.0 * tp/ (tp fn) 
19 plt.plot(fpr, tpr) 
20 plt.show() 
5.17 (o 
1.0 1.0 
0.8 0.8 
y 06 axe 06 
H H 
证 04 *X 04 
0.2 0.2 
05 N-10 m N=50 
00 02 04 06 08 10 00 02 04 06 08 10 
假 正 率 假 正 率 
1.0 1.0 
0.8 0.8 
We 0.6 we 0.6 
H H 
ES E 0.4 
02 02 
"m N-100 o N-1000 
00 02 04 06 08 10 00 02 04 06 08 I0 
假 正 率 假 正 率 


图 5.18 4 个 N 值 所 对 应 模型 的 ROC 曲线 


从 图 5. 18 中 可 以 看 出 , 随 着 N 值 增 大 ,ROC 曲线 的 形状 从 近似 一 条 直线 开始 变化 ,其 
左上 角 区 域 的 曲率 不 断 增 大 ,逐渐 呈现 出 左上 角 近 似 于 直角 的 曲线 。 搜 索 步 数 N 值 越 大 ， 
得 到 的 预测 模型 精确 度 也 越 高 。 因 此 ,图 5. 18 说 明 , 模 型 的 概率 预测 越 精确 ,ROC 曲线 就 
越 “弯曲 ”, 即 ,ROC 曲线 的 形状 反映 出 概率 预测 模型 的 预测 效果 。 从 图 5. 18 中 观察 到 的 这 


个 现象 与 数学 原 到 


相符 。 这 是 因为 ,用 降低 阔 值 来 增 大 真正 率 的 代价 是 同时 增 大 了 假 正 率 。 
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如 果 模 型 预测 不 精确 , 则 假 正 率 的 增长 将 近似 正比 与 于 真正 率 的 增长 ,从 而 对 应 的 ROC 曲 
线 就 比较 “ 平 直 ”; 而 如 果 模 型 预测 精确 , 即 正 负 标签 对 应 的 概率 两 极 分 化 , 则 在 真正 率 增长 
的 同时 不 会 给 假 正 率 带 来 太 大 的 变化 ,从 而 对 应 的 ROC 曲线 就 比较 “弯曲 ”。 

从 图 5. 18 中 还 可 以 直观 地 看 到 , 随 着 曲线 越 来 越 “ 弯 曲 ”, 曲线 下 方 的 面积 也 越 来 越 大 。 
因此 ,可 以 将 ROC 曲线 下 方 的 面积 AUC 作为 曲线 “ 变 曲 ”程度 的 有 效 度量 。 

定义 5.12(AUC WE) 在 二 元 分 类 问题 中 ,给 定 一 组 数据 T. Ub 为 一 个 概率 预测 模 
W, EX h TET T Eng AUC 测度 值 AUCr (h) 为 平面 上 正方 形 区 域 [0,1]X[o,1] 中 模 
型 h 的 ROC 曲线 下 方 区 域 的 面积 。 

例 5.8 数字 6 识别 问题 的 AUC 测度 。 

在 例 5. 7 中 ,绘制 了 搜索 步 数 N 为 10、50、100、1000 时 得 到 的 4 个 模型 的 ROC 曲线 。 
分 别 计算 它们 的 AUC 测度 ,如 图 5. 19 所 示 。 


1.0 1.0 
0.8 0.8 
"ET "1 
H H AUC=0.77 
W 04 AUC=0.58 Ek 0.4 
0.2 02 
à N-10 $9 N=50 
00 02 04 06 08 10 00 02 04 06 08 10 
假 正 率 
1.0 
0.8 
i o5 AUC=0.90 je 0:5 AUC-0.99 
EE & oa 
02 0.2 
vh N-100 do N-1000 
00 02 04 06 08 10 00 02 04 06 08 TO 
假 正 率 假 正 率 


图 5.19 4 个 NN 值 所 对 应 的 模型 的 ROC 曲线 的 AUC 测度 


从 图 5. 19 可 以 看 出 ,ROC 曲线 越 “弯曲 ”,AUC 测度 值 就 越 大 。 由 此 可 见 ,AUC 测度 
是 评价 算法 求解 的 概率 预测 模型 的 有 效 度量 。 
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5.4 Softmax 回归 


Logistic 回归 模型 适用 于 求解 二 元 分 类 问题 。 本 节 介 绍 的 Softmax 回归 模型 是 
Logistic 回归 模型 的 推广 , 它 适用 于 求解 元 分 类 问题 。 


5.4.1 Softmax 回归 基本 概念 


许多 实际 的 分 类 问题 都 是 元 分 类 问题 。 例 如 ,手写 数字 识别 问题 是 一 个 十 元 分 类 问 
题 。 高 尾 花 问题 是 一 个 三 元 分 类 问题 。 在 元 分 类 问题 中 ,标签 是 一 个 k 维 0-1 向 量 ,相应 
的 监督 式 学 习 模 型 预测 的 是 给 定 的 对 象 属于 每 一 个 类 的 概率 ,因此 预测 模型 输出 的 是 个 
概率 值 。 

一 般 情 况 下 ,可 以 采用 Softmax 回归 建立 & 元 分 类 的 预测 模型 ,其 定义 如 下 。 

定义 S. 13(Softmax 模型 ) — Ag — I n X k ABE: 

W = (WWW) 

其 中 ,每 个 w ER X nox 1 AGRAS j <k), Softmax RH hw:R — REN 
E- "Eu (5. 43) 


y tu k 
> wen) > (mw (mm 
et em e 
m m 


m 


在 定义 5. 13 中 ,jw (x) J& — Tr k 维 向 量 , 用 h(x) 表示 hw(x) 的 第 j 个 分 量 。 它 是 模型 
预测 x 属于 第 7 个 类 的 概率 , 即 


(Cun «xo (ug ex) 


e 


hw(x)— 


Pr(z 属于 类 j)== hw (X) o 4 (5.44) 
Meme 
式 (5.44) 中 的 h(x) 取 值 属于 [0,1] 区 间 , 因 而 是 一 个 合法 的 概率 值 ,并 且 有 
yaa C5. 48) 
jm y ee 
m 
3X C5. 45) BEBE Ry (x) 是 一 个 合法 的 概率 分 布 。 


注意 到 ,在 人 一 2 时 ， 


emo 


hw (x) (zs 可 十 ea "em F emm ) 
如 果 设 w — ws — w. WEN x 的 标签 为 1 的 概率 模型 就 是 Logistic 模型 ; 
eMe? J 
emm eem lee om 
这 也 说 明 ,Softmax 模型 是 Logistic 模型 在 上 A > 2 情形 的 推广 。 
Softmax 回归 以 Softmax 模型 作为 模型 假设 。 可 以 用 最 大 似 然 原理 导出 其 目标 函数 。 


Sigmoid((w.x) ) 
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给 定 训练 数据 (x0 Ly ) Lx? Ly? ) Le (C Ly ) 。 设 x2 8E j; 3€, Softmax BUS hw 的 
似 然 函 数 为 
Like(W | y? , y? yo )— Tī bw(Y = y?)— I hw, (x9) (5.46) 
对 式 (5.46) 取 对 数 , 得 到 
log Like(W | y? , y? ,yo )— $; tog he, Qc? ) (5. 47) 
由 于 x? 属于 j; 类, 因此, 相应 的 标签 向 量 y? 在 其 第 j; 个 分 量 上 取 值 是 1， 在 其 余 分 量 上 取 
值 均 是 0。 因此 , 式 (5.47) 又 可 以 表达 为 
log Like(W | y? , y? ,yc )— DI log hy (x? )) (5. 48) 


对 式 (5.48) 的 等 式 右边 项 取 负 号 并 乘 以 常数 1/m， 即 得 到 Softmax 回归 的 目标 函数 。 
XEXL5. 14(k TZN) HE nox E BIEW = (wi wo sow) 定义 Softmax 回归 的 目 
标 函 数 为 模型 hw (x)= (B, (xX) shu, (x),… ,hs (xX) ) 的 & 2626 SUB. FRAG 


— 22 ^ ,log hy (9) (5. 49) 


xx C. 10) 给 出 的 是 二 PST TP TES 它 采 用 0-1 标签 形式 。 对 于 二 元 分 类 问题 , 式 
(5. 49) 中 采用 0-1 向 量 的 标签 形式 。 事 实 上 ,这 两 个 表达 式 子 在 二 元 分 类 问题 中 是 等 价 的 。 
只 是 为 了 便于 表述 ,采取 了 不 同 的 标签 形式 。 

基于 定义 5. 14,Softmax 回归 算法 是 一 个 以 Softmax 函数 为 模型 假设 ,上 且 以 & 元 交叉 焙 
为 目标 函数 的 经 验 损失 最 小 化 算法 。 图 5. 20 是 Softmax 回归 算法 描述 。 


Softmax 回归 算法 
输入 : m 条 训练 数据 S = (CQ Ly) Lx? Vy ) e Qm y) 
输出 : Softmax 模型 hw* (x), HE SW" 二 (wi swi ewe ) 为 如 下 优化 问题 的 最 优 解 


min F(W)—— 1 3 (? ,log hw (2° )) 
w* ex mi 


图 5.20 Softmax 回归 算法 描述 


5.4.2 Softmax 回归 优化 算法 


在 多 分 类 问题 的 Softmax 回归 算法 中 ,通过 最 小 化 式 (5. 490 rag SC e 628 XCROEGK 
解 预测 模型 的 参数 。 由 于 A 元 交叉 灶 是 一 个 凸 函 数 , 因 而 可 以 用 梯度 下 降 算 法 以 及 随机 梯 
度 下 降 算法 来 优化 Softmax 回归 算法 。 为 此 需要 计算 元 交叉 炉 的 梯度 。 

设 (x,y) 为 任意 取 定 的 一 条 训练 数据 。 用 j 表示 x 所 属 的 类 , 则 模型 在 (x,y) 上 的 经 验 
损失 为 
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L(yshw (xz)) 一 一 log hy (x) —— log -全 一 (5.50) 


首先 ,根据 链 式 法 则 计算 L(y,hw (c) ) 关 于 w; 的 偏 导数 : 
2 ew? xem? by er? — y e»? 


Uds on SE i : x. (x)—1) 5.5) 
7 s (w, ex) 
(Ne) 
对 任意 -~ 天] 有 
k 
Mee o. 
P Ue GO uu epo m crai (e) (5.52) 
i iE ev] 
1-1 
结合 式 (5. 51) 与 式 (5. 52) 可 得 
VE (yshw (x)) — x (hw (x)— y)" (5.53) 
由 此 ,根据 梯度 的 线性 特性 可 知 
VF(W)— Il» x? (hy (x9 )— y? )7 (5.54) 
i=l 
注意 到 每 个 y?) box 1 Slip ft X 5j y 分 别 为 如 下 m X n EER m X k ER: 
x T y 
GUT DT 
x= u je. 
xc y 
并 用 hw (X ) o ll Fm x k RE: 
hw (ain r 
h (2) AT 
hy(X)— ii ja ! 
hw (x y" 
上 述 和 矩阵 记号 ,可 以 将 式 (5.54) 重 新 表达 为 如 下 更 加 紧凑 的 形式 : 
VF(W)— L X* (hy (X)— y) (5.55) 


图 5. 21 中 的 算法 是 用 梯度 下 降 算法 实现 的 Softmax 回归 算法 。 在 该 算法 中 ,第 3 一 8 
行 实现 了 Softmax 函数 。 第 10 一 26 行 实现 了 SoftmaxRegression 类 。 第 11 一 19 行 基 于 式 
(5.55) 用 梯度 下 降 算 法 训练 Softmax 模型 。 第 21,22 行 实现 了 概率 预测 函数 predict _ 
proba, $ 24— 26 行 用 最 大 概率 分 类 函数 实现 了 类 别 预测 函数 predict; 
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i 

2 

3 def softmex (scores) 

4 e np.exp (scores) 

5 s-e.sum(axis- 1) 

6 for i in range (len(s)) : 

7 dij-siil 

8 retum e 

9 
10 class SoftmexRegression: 

p def fit(self, X, y, eta- 0.1, N- 5000): 
12 m, n- X.shape 

13 m, k- y.shape 

14 w-np.zeros(n * k).reshape(n,k) 
15 for t in range(N) : 

16 prabac softmax (X.dot (w) ) 
17 g- X.T.dot (proba- y) /m 
18 ww etaž g 

19 self.w=w 
20 


m 
B 


def predict prova (self, X): 
return softmax (X.dot (self.w)) 


BB 


X 


def predict (self, X): 
proba-self.predict proba (X) 
return np.argmax (proba, axis= 1) 


u 


Y 
a 


图 5.21 Softmax 回归 的 梯度 下 降 算法 


例 5.9 车 尾 花 预 测 问题 。 

例 5. 3 中 的 山 意 尾 预测 问题 是 营 尾 花 预 测 问题 的 简化 版 本 。 完 整 的 车 尾 花 预 测 问题 的 
任务 是 根据 花 昔 长 LESE EH DUREE 4 个 特征 预测 营 尾 花 的 属 种 。 营 尾 花 数据 集 
中 的 样本 属 种 有 山 车 尾 、 变 色 营 尾 以 及 弗吉尼亚 营 尾 3 种。 可 见 , 高 尾 花 问题 是 一 个 三 元 分 
类 问题 。 

图 5. 22 中 的 程序 调用 图 5. 21 中 的 Softmax 回归 算法 求解 营 尾 花 问题 。 在 图 5. 22 rn. 
第 16 一 23 行 生成 并 处 理 音 尾 花 数据 。 其 中 ,第 22,23 行 运用 Sklearn 工具 库 中 的 
OneHotEncoder 将 标签 转化 为 三 维 0-1 向 量 的 形式 。 第 25 一 29 行 训 练 并 测试 Softmax 模 
型 。 运 行 图 5. 22 中 的 程序 ,可 以 得 到 Softmax 模型 对 这 个 音 尾 花 问 题 的 预测 准确 率 
H 10096, 
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Logistic lE] 归 算 法 


import numpy as np 

fram sklearn import datasets 

fram sklearn.preprocessing import MinMaxScaler 

fram sklearn.preprocessing import OneHotEncoder 

fram sklearn.mxdel selection import train test split 

from machine learning.lib.softmax regression gd import SoftmaxRegression 
fram mchine learning.lib.classification metrics import accuracy score 


(O0 Oo - Oo O & Q I mm 


def process features (X): 

10 scaler-MinMexScaler (feature range- (0,1)) 
1 X-scaler.fit transform(l.0* X) 

12 m, n-X.shape 

13 X-np.c [np.ones((m, 1)), X] 

14 retum X 


16 iris-datasets.load iris() 

17 X-irid "data"] 

18 y-irid "target"] 

19 X train, X test, y train, y test-train test split(X, y, test size- 0.2) 
X train- prooess features(X train) 

X test-prooess features(X test) 

encoder- OneHotEncoder () 

y train- enooder.fit transform(y train.reshape (- 1,1) ) .toarray () 


gOUNRPBS 


如 


model- SoftmaxRegression() 

mocel.fit(X train, y train) 

y pred-model.predict(X test) 
accuracy-accuracy score(y test, y pred) 
print ("accuracy- {}". format (accuracy) ) 


Bus 


R 
© 


图 5.22 和 营 尾 花 问题 的 梯度 下 降 算法 


在 数据 规模 较 大 时 ,梯度 下 降 算 法 的 运行 速度 较为 缓慢 。 因 此 ,可 以 改 用 更 高 效 的 随机 
梯度 下 降 算法 。 基 于 式 (5.53), 可 以 通过 修改 图 5. 21 中 的 算法 ,得 到 用 随机 梯度 下 降 算法 
实现 的 Softmax 回归 算法 ,如 图 5.23 所 示 。 


machine learning.lib.softmax regression sgd 
1 import numpy as np 
z 
3 def softmax (scores) : 


图 5.23 用 随机 梯度 下 降 算法 实现 的 Softmax 回归 算法 
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4 e np.exp (scores) 

5 s- e.sum (axis- 1) 

6 for i in range (len(s)) : 

7 dildi] 

8 retum e 

9 
10 class SoftmexRegression: 
1 def fit(self, X, y, eta 0=50, eta 1- 100, N= 1000) : 
12 m, n- X.shape 
13 m, k- y.shape 
14 w= np.zeros (n* k) .reshape (n,k) 
15 self.w-w 
16 for t in range(N) : 
17 i= np.randcm.randint (m) 
18 x- X i] .reshape (1,- 1) 

19 praba- softmax (x.dot (w) ) 
20 g- x.T.dot (prcba - y i]) 
2 ww -eta 0/(tteta 1) * g 
2 Self.wt-w 
23 Self.w/-N 


25 def predict proba(self, X): 


26 return softmax (X.dot (self.w)) 
27 
28 def predict (self, X): 
29 proba-self.predict prcba(X) 
30 return np.argmax (proba, axis- 1) 
图 5.23 (4 


例 5.10 手写 数字 识别 问题 。 

例 5. 4 中 描述 了 手写 数字 识别 问题 。 在 手写 数字 识别 问题 中 ,每 一 张 图 片 有 784 个 特 
征 和 一 个 表示 图 片 中 的 数字 的 标签 。 概 率 预 测 任务 是 预测 图 片 中 每 个 0 一 9 中 数字 出 现 的 
概率 。 类 别 预测 任务 是 输出 0 一 9 的 一 个 数 ,作为 对 相应 图 片 所 表示 的 数字 的 预测 。 

图 5. 24 中 的 程序 调用 图 5. 23 中 Softmax 回归 问题 的 随机 梯度 下 降 算法 来 完成 手写 数 
字 识 别 问题 。 运 行 图 5. 24 的 程序 之 后 ,可 以 得 到 accuracy —0. 89。 这 说 明 , 在 这 个 手写 数 
字 识 别 问 题 中 ,Softmax 回归 模型 对 类 别 预测 的 准确 率 达 到 89%。 
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import numpy as np 

fram tensorflow.examples.tutorials.mnist import input data 

from machine learming.lib.softmex regression sg import SofümexRegressicn 
franmachine learning.lib.classification metrics import accuracy score 


mnist-input data.read data sets("MNIST data/", one hot- True) 
X train, y train-mnist.train.images, mnist.train.labels 
X test, y test-mnist.test.images, mnist.test.labels 


10 model- SoftmexRegression() 

11 model.fit(X train, y train, eta 0-50, eta 1-100, N- 100000) 

12 prcba-model.predict prcba(X test) 

13 accuracy- accuracy score (np.argmax(y test, axis- 1), np.argmax (proba, axis- 1)) 
14 print ("accuracy- ()".format (accuracy) ) 


图 5.24 手写 数字 识别 问题 的 随机 梯度 下 降 算法 


5.4.3 Softmax 模型 与 指数 分 布 族 


Mb = 2 时 ,Softmax 模型 就 是 Logistic 模型 。 因 此 ,Softmax 模型 是 Logistic 模型 在 上 
元 分 类 问题 中 的 推广 。 与 Logistic 模型 相同 ,Softmax 模型 也 具有 统计 意义 。 在 本 节 中 详细 
介绍 Softmax 模型 的 统计 意义 。 
首先 介绍 多 项 分 布 的 概念 。 简 单 地 讲 , 多 项 分 布 刻画 的 是 独立 投掷 一 个 不 均匀 的 & 面 
TICT- SEED n 次 骨 子 所 出 现 的 各 个 不 同 结 果 的 概率 。 具 体 地 讲 , 给 定 一 个 k 面 骨 子 ,假定 投 
dox —ToT HUS i 面 的 概率 为 p;(i 二 1,2,…,)。 在 独立 地 投掷 冯 次 货 子 的 事件 中 ,用 了 了 
(Qn sem ) 表 示 最 终结 果 中 第 i 面 出 现 y; 次 的 概率 (i 二 1,2,…,k)。 根据 组 合 数学 与 概 
率 论 知识 可 以 计算 出 
c 7 
foiyY»)7 5m 


i 

yl” 

MF HRT n KET., wm yss yi 应 
(5. 56) 又 可 以 写成 


y! bh ph pb (5.56) 


当 满足 yi Hy Hee Hy = n, AIE, 


1 
fGOisyet») n: $i p» p MS pea prout (5.57) 
k 


M lyze 
定义 5.15( 多 项 分 布 ) PÆ nk, VES — ly — (yisyoes s) :1 十 yz 十 十 ys =n} 
为 样本 空间 。 如 果 S 上 概率 分 布 D 的 密度 函数 具有 式 (5. 57) 中 的 形式 , 则 称 D 为 一 个 参数 
H nbi spits bi 的 多 项 分 布 .并 记 为 D = Multi (n.k, pı spo pi). 
根据 定义 5.15, 多 项 分 布 是 一 个 k 维 向 量 空 间 中 的 概率 分 布 ,所 以 它 的 期 望 值 也 是 一 个 
和 & 维 向 量 。 经 过 简单 计算 不 难得 到 引 理 5. 2。 
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引 理 5.2. Xp T rf D = Multi(n,k, pi pz: spi), A Ej [y] — (npinp: s 
npi) 。 

Softmax 回归 模型 有 一 个 基本 假设 , 即 标签 分 布 D, 是 一 个 nn 二 1 的 多 项 分 布 。 换 句 话 
说 ,给 定 特征 组 x, 假 定 存在 pis pis pio 使 得 Ds = Multi (1 sks pi ,pa ss pr)。 

为 了 确定 pi ,ps，… ,ps 的 具体 形式 ,需要 将 定义 5.6 中 的 指数 分 布 族 推广 到 上 维 空间 。 

定义 5.16(k 维 指数 分 布 族 )” 取 定 整数 &, 具有 如 下 形式 的 密度 函数 的 概率 分 布 全 体 
PKA k 维 指数 分 布 族 : 

Fr (= ye (5. 58) 

其 中 ,a,b: 民 一 RR, H y ER。T: 民 一 民 为 一 个 k 元 向 量 值 函数 n ER 称 为 自然 参数 。 

当 & 一 1 时 ,定义 5.16 即 为 定义 5.6 中 的 指数 分 布 族 。 可 以 注意 到 ,在 k 维 情形 下 的 自 
然 参数 是 一 个 & 维 向 量 。 

Wt D = Multi (n,k, pi s pz s pa)» DU D HIR HE RRA SX Co. 57D PRIER., AHR 
变换 可 得 


Sisi (1- 335.) 
s = n! 之 logo, cM d, ) logo, 
IOS yy yl i 
Li P, 
= Al Ap (5.59) 
xy! y! 
在 式 (5.59) 中 取 
hi b: A) 
1 4 end 3 
n (iog p.08 n og, (5. 60) 
a (9) —— log p, (5.6) 
n! 
一 一 一 2 5.62 
5) yxlys!t y! f ) 
T(y)—» (5.63) 
则 有 , f(y) 二 56(y)e "7 。 这 说 明 , 多 项 分 布 是 指数 分 布 族 的 一 员 。 
n= Gn sN) o 根据 式 (5. 60) 可 以 解 出 
p: = i (5. 64) 
IF b» e^ 
emg 
p=] a yiga (5.65) 
l+ A et 


这 就 是 概率 pi ,ps，… pi 3 HRS UI M (Mpp ) 之 间 的 关系 。 
设 Softmax 回归 问题 用 模型 h 来 预测 标签 分 布 的 期 望 值 。 根 据 引 理 5.2 有 
h(x)= (pp pi) (5. 66) 
Logistic 回归 模型 与 线性 回归 模型 的 一 个 共同 点 是 : 它们 都 设 自然 参数 是 特征 的 线性 
函数 。 在 Softmax 回归 模型 中 ,对 于 wi ,wz sw, CR, 同样 可 以 设 


122 


li Logistic 回 归 算 法 T 


N= (Wi — WX), j=1,2,°,k (5.67) 
将 式 (5.67) 代 入 式 (5. 640 5i C5. 65) 可 得 


ED 


b= ， 了 一 1;2，… 涩 (5. 68) 


» een 
11 


将 式 (5. 68) 代 入 式 (5. 66) 就 得 到 


n ex (wg x) (n en 


h(x)= e e e 


k 


>, ene? 25 einem D ene? 
由 此 可 见 , 从 多 项 分 布 可 以 推导 出 Softmax 模型 。 这 也 就 是 Softmax 模型 的 统计 意义 。 


(5. 69) 


小 结 


Logistic 回归 算法 是 解决 二 元 分 类 问题 的 最 基本 的 监督 式 学 习 算法 之 一 。Logisitic [il 
归 算 法 的 思想 是 用 Sigmoid 函数 将 线性 预测 限界 于 区 间 [0,1] ,并 将 其 作为 对 标签 概率 的 预 
W. 。 本 章 通过 指数 分 布 族 阑 述 了 选择 Sigmoid 函数 的 根本 原因 ,从 而 揭示 出 Logistic 回归 
算法 与 线性 回归 算法 的 深层 次 联系 。 

由 于 Logistic 回归 问题 的 最 优 解 没 有 直接 的 数学 表达 式 , 所 以 需要 用 在 第 4 章 中 介绍 
的 搜索 算法 来 求解 。 本 章 中 介绍 了 Logistic 回归 问题 的 梯度 下 降 算法 、 随 机 梯度 下 降 算法 
以 及 牛顿 迭代 算法 。 这 3 类 算法 各 有 其 优势 。 在 实际 应 用 中 ,可 以 根据 需要 选用 合适 的 

分 类 问题 预测 效果 的 度量 是 机 器 学 习 中 的 重要 课题 。 本 章 首先 介绍 了 最 常用 的 准确 率 
度量 方式 ,同时 指出 了 用 准确 率 度 量 的 不 足 之 处 。 然 后 进一步 介绍 了 实际 应 用 中 常见 的 精 
确 率 .召回 率 .ROC 曲线 和 AUC 测度 等 一 系列 分 类 问题 预测 效果 的 度量 方式 。 

最 后 ,本 章 介绍 了 一 般 的 《元 分 类 问题 的 求解 算法 一 一 Softmax 回归 算法 。Softmax [nl 
归 算 法 是 Logistic 回归 算法 在 《元 分 类 问题 中 的 推广 。Softmax 回归 算法 也 是 第 8 章 中 的 
神经 网 络 分 类 算法 的 基础 。 


习题 


5.1 BRZE X= R, 标签 采用 0-1 标签 形式 。 设 he 是 一 个 Logistic 回归 模型 。 
请 分 别 描述 被 h, 的 最 大 概率 分 类 函数 归 和 类 0 与 类 1 的 区 域 。 

5.2 二 元 分 类 问题 的 标签 形式 是 灵活 多 样 的 。 式 (5. 100 rP f ac SCIO JH T. 0-1 标签 
形式 。{ 一 1, 十 1} 是 另 一 种 常用 的 标签 形式 。 请 描述 基于 {一 1, 十 1} 标 签 形式 的 交 又 炉 表 
比武 。 
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5.3 Logistic 回归 算法 是 一 个 经 验 损 失 最 小 化 算法 。 因 此 ,可 以 对 其 进行 正则 化 。 请 
描述 Logistic 回归 算法 的 Li 正则 化 与 L; 正则 化 算法 的 目标 函数 ,并 用 梯度 下 降 算 法 实现 
Logistic 回归 算法 的 L, 正则 化 与 正则 化 。 

5.4 在 第 3 章 中 介绍 的 逐步 回归 算法 是 线性 回归 的 特征 选择 算法 。 它 的 基本 思想 是 ， 
逐步 引入 能 够 显著 降低 均 方 误差 的 特征 。 同 一 思想 也 可 以 用 于 Logistic 回归 算法 。 请 实现 
关于 Logistic 回归 问题 的 逐步 Logistic 回归 算法 。 

5.5 设 有 8 条 标签 属于 {0,1} 的 数据 。 它 们 的 标签 组 成 的 向 量 为 (1,1,1,1,0,0,0,0) 。 
设 模 型 h 对 这 8 条 数据 的 标签 预测 为 (1,0,1,1,0,1,1,0)。 请 计算 模型 h 的 准确 率 、 精 确 率 
与 召回 率 。 

5.6 乳腺 癌 预 测 问 题 。 

乳腺 癌 预 测 问题 的 任务 是 : 根据 患者 的 病理 特征 ,预测 患者 的 乳腺 肿瘤 是 良性 还 是 恶 
性 。 数 据 集 来 自 Sklearn 工具 库 中 的 乳腺 癌 数 据 集 。 该 数据 集 包 含 569 例 乳 腺 肿瘤 病例 。 
每 一 条 病例 含有 患者 的 30 个 病例 特征 以 及 该 患者 的 肿瘤 是 良性 还 是 恶性 的 结果 。 

图 5. 25 中 的 程序 导入 乳腺 癌 数 据 集 , 并 生成 特征 矩阵 与 标签 矩阵 。 请 基于 图 5. 25, 用 
Logistic 回归 算法 完成 乳腺 癌 预 测 问 题 。 完 成 预测 后 ,还 需要 计算 模型 的 准确 率 、 精 确 率 与 
召回 率 。 最 后 ,绘制 出 ROC 曲线 ,并 计算 AUC 测度 。 


1 fro sklearn.datasets import load breast cancer 
2 X, y- loed breast cancel (return X y- True) 


图 5.25 导入 乳腺 癌 数 据 集 并 生成 特征 矩阵 与 标签 矩阵 的 程序 


5.7 红酒 产地 预测 问题 。 

红酒 产地 预测 问题 的 任务 是 : 根据 红酒 的 各 项 指标 ,鉴定 红酒 的 产地 。 数 据 来 自 
Sklearn 工具 库 中 的 红酒 数据 集 。 该 数据 集中 包含 来 自 3 个 不 同 产地 的 178 瓶 红酒 。 每 一 
条 数据 表示 一 瓶 红酒 ,其 中 记录 了 13 种 指标 作为 特征 ,例如 酒 的 颜色 .蒸馏 度 .酸碱度 、 花 青 
素 浓度 等 ,同时 还 记录 了 红酒 的 产地 作为 标签 。 

图 5. 26 中 的 程序 导入 红酒 数据 集 ,并 生成 特征 和 矩阵 与 标签 矩阵 。 请 基于 图 5. 26, 用 
Softmax 回归 算法 完成 红酒 产地 预测 问题 。 


1 frm skleam.datasets import load wine 
2 X, y-load wine(retum X y= True) 


图 5.26 导入 红酒 数据 集 并 生成 特征 矩阵 与 标签 矩阵 的 程序 


5.8 Logistic 回归 模型 的 校准 性 。 

在 一 个 采用 0-1 标签 形式 的 二 元 分 类 问题 中 ,给 定 模 型 h。 对 任意 样本 x,h(x) 表 示 x 的 
标签 为 1 的 概率 。 取 定 一 组 训练 数据 S=={ (x y). (x0 ,y2 ), Lc y), Rn, 
x? ER ,y® E{0,1}。 如 果 模 型 h 满足 如 下 性 质 : 
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li Logistic 回 归 算 法 jl 


Lireo ie 6.70) 

则 称 刀 是 一 个 校准 的 模型 。 这 是 因为 ,如 果 式 (5. 70) 成 立 , 则 模型 对 标签 为 1 的 概率 预测 恰 
等 于 标签 为 1 的 频率 。 

校准 特性 是 使 得 许多 实际 应 用 都 采用 Logistic 回归 算法 的 一 个 重要 因素 。 试 证 明 ， 
Logistic 回归 模型 满足 式 (5. 70) 中 的 校准 特性 。 

5.9 泊 松 回归 问题 。 

(1) 泊 松 分 布 用 于 描述 单位 时 间 内 某 随 机 事件 发 生 次 数 的 概率 分 布 。 取 定 样本 空间 
S 二 {0,1,2,…} 为 全 体 非 负 整数 。 一 个 以 4 > 0 为 参数 的 泊 松 分 布 Poisson (4) 具 有 如 下 形 
式 的 密度 函数 : 


sos E 

试 证 明 泊 松 分 布 Poisson (4) 是 指数 分 布 族 中 的 一 员 ,并 请 给 出 对 数 正规 化 子 a(7)、 底 
层 观 测 6(y ) 以 及 充分 统计 量 T(y ) 的 具体 形式 。 

(2) 在 一 个 回归 问题 中 ,如 果 标 签 值 取 整数 值 , 并 且 表示 某 类 事件 发 生 的 次 数 ,就 称 该 
回归 问题 是 一 个 计数 回归 问题 。 一 个 典型 的 例子 是 预测 客服 中 心 可 能 接 到 的 电话 次 数 。 在 
计数 回归 问题 中 ,往往 设 标签 分 布 是 泊 松 分 布 。 基 于 这 个 假设 的 回归 算法 被 称 为 泊 松 回归 
算法 。 请 按照 指数 分 布 族 原则 推导 出 泊 松 回归 的 模型 形式 。 

(3) 请 按照 最 大 似 然 原则 推导 出 泊 松 回归 问题 的 目标 丽 数 。 


sy YES 
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第 6 合 ”支持 问 量 机 算法 


在 第 5 章 中 介绍 了 Logistic 回归 算法 。 它 是 处 理 二 元 分 类 问题 的 有 效 方法 。 本 章 要 介 
绍 另 外 一 类 二 元 分 类 问题 的 监督 式 学 习 算 法 一 一 支持 向 量 机 算法 。 

支持 向 量 机 算法 与 Logistic 回归 算法 在 任务 形式 和 算法 原理 方面 是 有 区 别 的 
Logistic 回归 算法 的 思想 源 于 对 标签 分 布 的 统计 假设 。 它 可 以 处 理 二 元 分 类 问题 的 概率 预 
测 任务 ,从 而 可 以 自然 地 延伸 到 类 别 预 测 任务 形式 。 而 支持 向 量 机 的 思想 源 于 解析 几何 , 它 
只 能 处 理 类 别 预测 任务 。 如 果 单 从 任务 形式 上 来 看 ,Logistic 回归 算法 要 强 于 支持 向 量 机 算 
法 。 然 而 ,支持 向 量 机 算法 突出 的 长 处 在 于 它 对 非 线 性 数据 有 很 强 的 处 理 能 力 。 当 二 元 分 
类 问题 的 正 负 采样 不 能 被 任何 直线 分 离 时 ,支持 向 量 机 算法 可 以 启用 灵活 多 样 的 核 方 法 将 
数据 投影 到 高 维 空间 ,从 而 可 用 高 维 空间 中 的 超 平面 来 分 离 数 据 ,这 是 Logistic 回归 算法 无 
法 做 到 的 。 在 这 种 情况 下 ,支持 向 量 机 算法 就 是 一 个 比 Logistic 回归 算法 更 适用 的 算法 。 

本 章 的 6. 1 节 介 绍 支持 向 量 机 的 基本 概念 ,主要 内 容 包括 它 的 解析 几何 思想 起 源 以 及 
优化 形式 的 演变 ; 除 此 之 外 ,还 包括 支持 向 量 机 的 对 偶 优化 问题 。 基 于 对 偶 思想 ,在 6. 2 节 
中 介绍 支持 向 量 机 的 SMO 算法 。6. 3 节 与 6.4 节 分 别 介绍 核 方 法 与 软 间隔 支持 向 量 机 算 
ik ,它们 都 是 支持 向 量 机 算法 在 训练 数据 不 可 分 离 情形 的 推广 。 


6.1 支持 向 量 机 基本 概念 


支持 向 量 机 是 应 用 于 二 元 分 类 问题 中 的 一 种 监督 式 学 习 方法 。 在 处 理 二 元 分 类 问题 
时 ,要 寻找 一 个 将 两 类 事物 相 分 离 的 超 平面 。 通 常会 有 很 多 个 满足 此 条 件 的 超 平面 。 支 持 
向 量 机 算法 的 目标 是 构造 能 正确 划分 训练 数据 集 并 且 与 要 分 离 的 两 类 采样 有 最 大 几何 间隔 
的 分 离 超 平面 。 具 有 这 个 特征 的 分 离 超 平面 不 仅 能 完美 地 区 分 训练 数据 ,而 且 对 测试 数据 
也 有 较 好 的 分 类 预测 能 力 。 


6.1.1 支持 向 量 机 思想 起 源 


在 第 2 章 的 2.3 节 曾 介绍 过 山 营 尾 预测 问题 。 这 个 问题 是 基于 昔 尾 花 数 据 集 ,以 音 尾 
花花 昔 的 长 与 宽 作 为 特征 ,来 预测 给 定 间 尾 花 是 否 为 山 音 尾 。 如 果 一 株 营 尾 花 是 山 营 尾 , 则 
对 应 的 标签 取 值 十 1 ,为 一 个 正 采 样 ; 和 否则 ,对 应 的 标签 取 值 一 1 ,为 一 个 负 采 样 。 从 图 2. 6 所 
示 的 山 音 尾 的 训练 数据 分 布 来 看 ,其 正 负 采样 可 以 被 一 条 直线 分 离 。 能 够 分 离 正 负 采 样 的 
直线 就 称 为 分 离 直线 。 对 于 此 类 二 元 分 类 问题 ,常用 算法 的 思想 是 : 通过 训练 数据 学 习 , 找 
出 一 条 分 离 直 线 , 并 用 这 条 分 离 直 线 对 测试 数据 进行 类 别 预 测 。 如 果 给 定 测试 数据 位 于 直 
线 上 方 , 则 预测 其 标签 为 十 1, 和 否则 预测 其 标签 为 一 1。 

对 图 2. 6 所 示 的 山高 尾 的 训练 数据 ,感知 器 算法 成 功 地 找 出 了 一 条 正 负 采样 分 离 直 线 。 
从 图 6.1(a) 可 以 看 到 ,该 直线 基本 上 分 离 了 训练 数据 。 但 是 ,由 于 这 条 分 离 直 线 过 于 靠近 训 
练 数据 中 的 负 采 样 点 ,因而 在 图 6. 1(b) 中 的 测试 数据 上 未 能 完全 正确 地 分 离 正 负 采 样 , 测 
试 数据 中 的 一 个 负 采 样 错 误 地 位 于 直线 的 上 方 。 
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tk [22-3 
(a) (b) 
图 6.1 感知 器 算法 找 出 的 分 离 直线 


图 6.2(a) 中 显示 的 是 用 支持 向 量 机 算法 计算 出 的 一 条 直线 (算法 见 例 6. 1) 。 该 直线 成 
功 地 分 离 了 山 营 尾 训练 数据 的 正 负 采样 。 如 果 选 择 图 6. 2(a) 中 的 这 条 直线 作为 两 类 采样 的 
分 离 直线 , 则 这 条 分 离 直 线 在 测试 数据 上 会 有 更 好 的 表现 ,如 图 6. 2(b) 所 示 。 

结合 图 6. 1 与 图 6. 2 可 知 ,在 有 多 条 可 能 的 分 离 直 线 时 ,如 何 选择 分 离 直 线 是 至 关 重 要 
的 。 按 照 不 同 的 选择 原则 所 选 出 的 分 离 直线 会 有 不 同 的 预测 结果 。 

图 2.8 给 出 了 感知 器 算法 的 描述 。 感 知 器 算法 不 断 和 迭代 搜索 ,直至 发 现 一 条 分 离 直 线 ， 
并 立即 输出 此 直线 。 由 此 可 见 ,尽管 可 能 存在 多 条 分 离 直线 ,感知 器 算法 也 只 选 出 它 最 先 感 
知 到 的 那 一 条 直线 。 而 支持 向 量 机 算法 却 是 有 选择 地 计算 出 一 条 拓展 性 最 强 的 分 离 直线 。 
与 图 6. 1(a) 中 的 分 离 直线 相 比 ,图 6. 2(a) 中 的 分 离 直 线 增 大 了 与 负 采 样 间 的 几何 间隔 。 这 
样 的 分 离 直 线 具 有 和 良好 的 拓展 性 ,因而 对 测试 数据 也 有 较 好 的 分 类 预测 能 力 。 
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tK [22-3 
(a) (b) 
图 6.2 支持 向 量 机 算法 找 出 的 分 离 直 线 


简 而 言 之 ,支持 向 量 机 算法 的 核心 理念 是 计算 一 条 最 为 中 立 的 分 离 直线 。 该 直线 既 不 
偏向 训练 数据 中 的 正 采 样 , 也 不 偏向 负 采 样 。 以 下 介绍 上 述 思想 在 支持 向 量 机 算法 中 的 具 
体 体现 。 首 先 要 具体 量化 一 条 分 离 直 线 的 中 立 性 。 这 种 量化 是 通过 间隔 的 概念 来 体现 的 。 

引 理 6.1 设 L:(w,x) 十 b 二 0 为 平面 上 的 一 条 直线 。x" 为 平面 上 的 一 点 。 点 x” 到 直 
线 工 的 距离 为 


d(x',L)— 
在 一 个 含有 两 个 特征 的 二 元 分 类 问题 中 , 设 


S= {XD yP) xD, yO) (a yy ))} 
Jg Jd. Fer IHES 1i m.x? € HERRIE, y? €(7—1. 十 1} 为 标签 。 
定义 6.1( 间 隔 与 支持 向 量 ) 给 定 训练 数据 S, HR L: (w,x) 十 b — 0 是 训练 数据 
S— (Gc? , y) (P, yP), Cr Ly) 的 一 条 分 离 直线 。 则 工 与 训练 数据 S 的 间隔 定 
义 为 


| Oe x* | (6. 
w 


òs(w,b) = mind (x? .L) (6. 2) 
1<i<m 


将 S 中 到 直线 的 距离 恰 等 于 3s (wb) KARA L ES 中 的 支持 向 量 。 

概括 来 说 ,一 条 分 离 直 线 的 支持 向 量 就 是 训练 数据 中 与 该 直线 最 接近 的 点 (可 能 有 多 
个 )。 支 持 向 量 与 直线 之 间 的 距离 称 为 间隔 。 图 6. 3 直观 地 解释 了 支持 向 量 与 间隔 的 概念 。 
图 6.3(a) 中 的 点 P, EHR L 在 训练 数据 中 的 支持 向 量 。 它 与 Li 之 间 的 距离 6 即 为 Li 与 
训练 数据 的 间隔 。 图 6. 3(b) 中 的 直线 L 有 3 个 支持 向 量 Pi 、P; 与 P:, 它们 与 Le 的 距离 相 
等 。 该 公共 距离 值 ; 即 为 工 , 与 训练 数据 的 间隔 。 

由 式 (6. 2) 定 义 的 间隔 是 对 分 离 直线 中 立 性 的 具体 量化 。 如 果 工 是 所 有 分 离 直线 中 与 
训练 数据 间隔 最 大 的 那 一 条 分 离 直 线 , 则 区 的 支持 向 量 中 一 定 既 有 正 采样 又 有 负 采 样 。 也 
就 是 说 , 工 到 最 近 的 正 采 样 的 距离 等 于 其 到 最 近 的 负 采 样 的 距离 。 因 此 , 工 是 一 条 中 立 的 分 
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6.3 支持 向 量 与 间隔 


离 直线 。 由 此 可 知 ,寻找 最 中 立 的 分 离 直线 就 等 价 于 寻找 间隔 最 大 的 分 离 直线 。 这 就 是 支 


持 向 量 机 的 核心 思想 在 算法 设计 层面 的 具体 表现 。 


设 直线 工 :(w,xz) 十 0 一 0 是 训练 数据 So (Oc Ly ) (9 ,y2 ) (xz Vy ) ) fg 
条 分 离 直线 , 则 对 任意 1 过 ;过 zi, 有 2 = Sign((w:x2 十 0)。 因 此 ,可 以 将 式 (6. 1) 中 的 


距离 公式 表达 为 如 下 的 形式 : 
d(x?.L)— y? ((w,x? ) +6) 
ý w 


由 此 ,可 将 式 (6.2) 写 成 


y? ((w.x'? ) 十 5) 
[w] 


Os (wb) min 


支持 向 量 机 算法 的 求解 目标 是 如 下 的 优化 问题 : 


max 6s (wb 
wER ,bER ; 


在 训练 数据 可 分 离 的 前 提 下 , 式 (6. 5) 的 最 优 解 就 是 间隔 最 大 的 分 离 直线 。 


(6.3) 


(6.4) 


(6.5) 


推导 式 (6.5) 中 目标 函数 的 思路 可 以 自然 地 推广 到 维 空间 。 二 维 空间 中 的 直线 对 应 
Ton 维 空间 中 的 超 平面 了?。 在 一 个 二 元 分 类 问题 中 , 设 样 本 空间 X cc Rs 并 设 训练 数据 S= 
Qc? Ly ) Qe? Vy?) e ,x,y”)} 中 存在 分 离 平 面 。 可 知 ,支持 向 量 机 算法 的 任务 是 


计算 


max Os(w.5)— max | 
wER' ,bER w€R' ,0ER 


6.1.2 支持 向 量 机 的 凸 优化 描述 


[7 m 
EN (Ovx. -— 


Bin Tw] 


(6. 6) 


支持 向 量 机 算法 的 求解 目标 是 优化 式 (6. 60 FAY EL bg ER C. BU SC feel B. 3x Scy EJ 
一 个 无 约束 的 非 凸 优化 问题 。 为 了 便于 设计 优化 算法 ,可 以 将 其 转换 为 与 之 等 价 的 带 约 束 


O 在 不 失 准确 性 的 前 提 下 ,以 后 均 将 超 平面 称 为 平面 。 
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的 凸 优化 问题 。 
取 定 一 组 参数 wb, 考察 如 下 只 有 7 一 个 变量 的 带 约束 优化 问题 : 


maxy 
YER 


© m (6. 7) 
约束 : X ET 2-5) zy» i121:2,*; 


引 理 6.2. Bb y HRG. DRR y = 6s (wb). 

WEBB. 因为 Y” 为 式 (6.7) 的 最 优 解 ,所 以 它 首先 必须 是 一 个 可 行 解 。 于 是 Y' 一 定 满足 
式 (6.7) 中 的 所 有 约束 条 件 , 即 y^. 不 超过 任何 一 个 y? Kw?) 4 0)/ | w] ,i — 1,2,*…,m。 
由 此 可 知 : 


Y' < min 
1<i<m 


另 一 方面 ,根据 gs (w,5) 的 定义 知 ,Y= 二 6s (w:0) 一 定 是 式 (6.7) 的 可 行 解 。 但 由 于 y Æ 
最 优 解 ,所 以 必然 有 y > y = 6s (wb). 结合 以 上 两 方面 可 得 7* = òs (wb). 

上 述 变换 是 优化 算法 设计 中 的 一 个 常用 技巧 。 通 过 这 一 变换 ,进一步 将 式 (6. 6) 表 示 为 
如 下 的 优化 问题 : 


I0] (DD) 
y Cors )T5) = às (wb) 


max y 
web 


(6.8) 


Gy) ti) 
DL I ed 


由 此 变换 , 式 (6.6) 中 形式 较为 复杂 的 目标 函数 就 转化 成 式 (6. 8) 中 简单 的 目标 函数 。 
如 此 变换 的 代价 是 在 原来 的 无 约 东 的 优化 问题 中 引入 了 约束 条 件 。 可 以 注意 到 ,约束 条 件 
中 的 函数 y? (Ovx?) 4-0) / lwl 并 不 是 关于 w 的 凸 函 数 ,因此 还 要 继续 简化 式 (6. 8) 的 约 
KITE. 

已 知 训练 数据 是 可 分 离 的 ,因此 ,在 式 (6.8) 的 最 优 解 w Lot 、Y* 中 , 必 有 7Y* 之 0。 从 而 
可 以 在 式 (6. 8) 中 增加 一 个 约束 条 件 y 29 0. 得 到 式 (6.9): 


max 
web.y 


约束 : pie >r i-um (6. 9) 


y0 

式 (6.8) 与 式 (6.9) 有 完全 相同 的 最 优 解 。 虽 然 式 (6.9) 比 式 (6.8) 增 加 了 一 个 约束 条 

件 , 但 是 它 却 更 有 利于 对 约束 条 件 作 进一步 的 简化 。 增 加 了 y > 0 的 约束 条 件 之 后 ,就 可 以 
将 式 (6.9) 改 写 为 如 下 形式 : 


maxy 
web 


pg, S (Ox 2-5) S 1. 1 q,2, sum (6. 10) 
ylw] 


y>o0 


做 变量 代 换 : 
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b 


/ 


w=, b= (6.1 
zw yiwi 
则 可 以 将 式 (6. 10) 表 达 为 
max y 
wb uy 
HR: y? (x?) Hl, i— 01,2,m (6.12) 
y0 


显而易见 , 式 (6. 12) 进 一 步 简化 了 约束 条 件 。 

在 凸 优化 问题 中 ,约束 条 件 中 不 允许 有 严格 不 等 式 。 由 于 Y 二 0 是 一 个 严格 不 等 式 约 束 
条 件 , 因 此 式 (6. 12) 仍 不 是 一 个 凸 优化 问题 。 为 此 ,还 需要 通过 Lo 范 数 变换 来 改变 约束 
条 件 。 


根据 式 (6. 11) 有 
yw = ToT (6. 13) 
由 于 w/|w|| 的 Ls 范 数 恰 等 于 1, 所 以 在 式 (6. 13) 等 号 两 端 取 Lo. 范 数 就 得 到 ylw|= 1. BR 
-j 
Y- TT (6. 14) 


RG. IOANA T ARTE y — 0, 从 而 可 以 将 式 (6. 12) 表 示 成 
m y 
75" Tw] (6.15) 
A. y? (x9) b )2 1, im 1,2, m 
与 式 (6. 15) 等 价 的 形式 为 
a 2 
LE Il (6. 16) 


AR: y? (x?) +b)> l, i=1,2,,m 
经 过 上 述 一 系列 的 变换 ,支持 向 量 机 算法 的 优化 目标 就 由 式 (6. 6) 的 间隔 最 大 化 问题 转 
化 为 与 之 等 价 的 式 (6. 16) 中 的 标准 凸 优化 问题 。 综 上 所 述 ,可 以 得 到 与 式 (6. 16) 相 应 的 支 
持 向 量 机 算法 ,如 图 6.4 所 示 。 


支持 向 量 机 算法 
输入 : m 条 训练 数据 S = {G(x y) (9 V9 ) e Cx Ly) 
前 提 : 训练 数据 中 正 负 采 样 存在 分 离 平面 
模型 假设 : H = (hvs :hv,s (x) = Sign((w,x) 4-0) 
计算 如 下 优化 问题 的 最 优 解 w* ,b*: 
"E : 
min -> wl 
约 东 :y (Ox?) -Fb)Z 1. i= b2;7m 

输出 模型 bs” 


6.4 支持 向 量 机 算法 描述 
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6.1.3. 支持 向 量 机 的 对 偶 


在 6.1.2 节 中 ,支持 向 量 机 算法 从 其 原始 定义 的 无 约束 优化 问题 转化 为 式 (6. 16) 中 的 
一 个 带 约束 的 凸 优化 问题 。 对 偶 理 论 是 本 章 中 SMO 算法 和 核 方法 的 理论 基础 , 它 也 是 支持 
向 量 机 算法 的 最 大 特色 之 一 。 对 偶 理论 涉及 一 些 基础 数学 知识 (附录 A) 。 

凸 优化 问题 中 对 偶 理 论 的 基本 思想 是 用 拉 格 朗 日 乘 子 将 原始 问题 的 约束 条 件 移 至 目标 
函数 。 具 体 到 式 (6.16) 中 , 设 WAR y? (Ovx?) +o) 1 对 应 的 朗 格 朗 日 乘 子 , 则 式 
(6.16) 的 拉 格 朗 日 函数 为 


L(w.b.A)— ibl TOM ady? (Qux?) 5)) (6. 17) 
i=l 
设 G(4) 是 式 (6.16) 的 对 偶 函数 , 即 
G(4)= minL (w.b.À) (6. 18) 


要 计算 G(A) 的 具体 表达 式 ,需要 进一步 将 式 (6. 17) 重 新 组 合 如 下 : 
L(w.b,A)— Lw? = » à y? (rx 9 ) — ( » ust Jot E ài (6. 19) 
i-1 i=l i=l 
式 (6. 18) 表 达 的 是 一 个 无 约束 凸 优化 问题 。 它 的 最 优 解 w” 、b” 必 须 满 足 


VLL (w* ,b*,A)— w — »» à y? x? — 9 (6. 20) 


VL (w* Bra Das” =0 (6.21) 
仅 当 式 (6. 21) 成 立时 ， G (4) 的 值 才 是 有 限 的 。 事实 上 , 式 (6. 19) 中 4 的 系数 恰 为 
» uy? 3 y» X y? Æ 0. 不妨 设 » À y? 2 0, HI lim L(w,b,A) —— co, 可见 ,此 时 
Gü)=—%, B 
假设 式 (6. 2D Rr. HERE G(A) — L(w' ,60* A). MIRC. 200 [Al w^ 一 » A gt t 
将 此 式 代入 式 (6. 19) ,并 结合 式 (6. 21) 得 到 B 


Lar AR A y? 0 
G(À)-1, N = (6.22) 
puer 一 去 aa y? YPP, P), iR ay? 一 0 
i=l 一 Esg 
式 (6.16) 中 凸 优化 问题 的 对 偶 问 题 (附录 A 定义 A.3.8) 是 
max G(4) (6. 23) 


由 此 可 见 , 在 式 (6. 23) 表 示 的 对 偶 问 题 中 ,不 必 考 虑 那些 使 得 ES Ay? 天 0 的 拉 格 朗 日 乘 子 


4。 事实 上 ,这 样 的 乘 子 的 对 偶 函数 值 C(4) —— 9. 从 而 它 不 可 能 是 式 (6. 23) 的 最 优 解 。 因 
此 ,可 以 将 对 偶 问 题写 成 如 下 形式 : 
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max G(å)= Ài cu AA, 309 19 e P7 


(6. 24) 


À;Z0, i—1,2,-.m 
KKT 条 件 是 对 偶 理论 的 重要 组 成 部 分 (附录 A 定理 A. 3. 13)。 它 是 联系 原始 最 优 解 与 
对 偶 最 优 解 之 间 的 纽带 。 用 KKT 条 件 就 可 以 通过 对 偶 问题 的 解 来 间接 地 求解 原始 问题 。 
式 (6.16) 中 的 原始 问题 与 式 (6. 24) 中 的 对 偶 问 题 的 KKT 条 件 是 凸 优化 KKT 条 件 的 直接 
推论 。 
推论 6.3 E w^ b” 为 式 (6.16) 的 一 组 解 , A7. 为 式 (6. 24) 的 一 组 解 , 则 它们 均 为 最 优 
解 的 充分 必要 条 件 如 下 : 


= gi (6. 25) 


AP (0—39 (Q*x?)-Eb* ))—0, VIl<i<m (6. 26) 
推论 6. 3 中 的 式 (6. 25) 和 式 (6. 26) 分 别 是 KKT 条 件 中 的 稳定 性 条 件 和 互补 松弛 条 件 。 

式 (6.26) 的 意义 如 下 : 如 果 AS 二 0, 则 必然 有 
y? (Cw x9) 4 b* )= 1 €6. 27) 
这 表明 , x 是 一 个 支持 向 量 。 又 由 于 y? €tc—1.2- 1). 因此 ,在 式 (6.27) 的 等 式 两 端 同时 

RA y? . 并 移 项 可 得 
b = y? — (w^ ax?) (6. 28) 
再 结合 式 (6. 25) ,就 可 以 得 到 


b = y” "s y (9 Lx) (6. 29) 


根据 以 上 的 推导 ,可 以 得 出 如 下 结 : 设 已 经 求 得 对 侦 最 优 解 4*, 则 由 式 (6. 25) 和 式 
(s. 25) BERT LB BURAR EMUS RH wb” 。 换 句 话 说 ,为 了 求解 式 (6. 16) 表 示 的 支持 向 
量 机 的 原始 优化 问题 ,只 需要 求 出 式 (6. 24) 中 的 对 偶 问题 的 最 优 解 4” 即 可 。 由 此 可 见 , 求 
解 带 约束 的 凸 优化 问题 就 转化 为 求解 它 的 对 偶 问题 。 


从 式 (6.25) 可 以 看 到 : 最 优 解 w* - Eyes 是 训练 数据 特征 组 的 线性 组 合 。 设 
A, SA ess 天 0, 则 w 就 是 支持 向 量 x ,xc iex CO 的 线性 组 合 。 所 以 ,支持 向 量 机 


算法 的 求解 目标 实际 上 是 寻找 间隔 最 大 的 分 离 平面 的 支持 向 量 ze an see 以 及 它们 
对 应 的 系数 A, «Ai ,…,)i 。 这 就 是 称 该 算法 为 支持 向 量 机 算法 的 缘由 。 


6.2 支持 向 量 机 优化 算法 


应 用 对 偶 理论 ,支持 向 量 机 算法 的 求解 目标 最 终 转 化 为 求解 式 (6. 24) 的 对 偶 问 题 。 
SMO 算法 是 求解 式 (6. 24) 的 一 个 高 效 的 优化 算法 。SMO 是 英文 Sequntial Minimal 
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Optimization 的 首 字 母 缩写 , 意 为 序列 最 小 优化 。 它 是 坐标 下 降 算 法 在 支持 向 量 机 对 偶 问 
题 中 的 具体 实现 。 

由 于 式 (6. 24) 是 一 个 带 约 束 的 优化 问题 ,因而 不 能 直接 用 梯度 下 降 算 法 求解 ,而 应 当 采 
坐标 下 降 算 法 。 坐 标 下 降 算 法 在 搜索 过 程 中 的 每 一 步 都 选取 一 个 坐标 分 量 。 然 后 ,单方 
面 调整 该 变量 的 值 ,使 得 目标 函数 在 其 余 变 量 固定 的 前 提 下 达到 最 优化 。 持 续 此 搜索 过 程 ， 
直至 无 法 继续 改进 目标 函数 值 时 为 止 。 然 而 , 式 (6. 24) 中 的 mm 个 变量 XA1 Aon AS 并 不 是 
独立 存在 的 ,它们 经 由 式 (6. 21) 中 的 约束 条 件 紧 密 相连 。 如 果 固 定 i ,hs ,…,)w Pm — 1 
个 变量 ,不 妨 设 为 ls ,Ms,…,Aw，, W AS 的 取 值 也 将 由 式 (6. 21) 唯 一 确定 。 因 此 ,坐标 下 降 算 
法 不 能 直接 用 于 求解 式 (6. 24) 表 示 的 问题 。 必 须 对 坐标 下 降 算 法 做 一 定 的 修改 。 

SMO 算法 的 核心 思想 就 是 对 坐标 下 降 算法 做 如 下 修改 : 每 一 次 选取 两 个 变量 (而 不 是 
一 个 ) 进 行 调整 。 在 每 一 轮 搜索 中 选取 两 个 变量 1; 与 4;, 并 固定 其 他 变量 的 取 值 。 由 于 只 
固定 了 闵 一 2 个 变量 , A, 的 取 值 就 有 了 多 种 可 能 。 一 旦 计算 出 力 的 最 优 取 值 , 4; 的 取 值 也 就 
可 以 由 式 (6. 21) 推 算出 。 

上 述 思想 可 以 具体 描述 如 下 : 设 当前 变量 值 为 7 ,42 ,…. , 九 ， 为 了 便于 投 述 ,不 妨 设 
算法 选取 的 变量 为 Ni 与 ja, 并 且 设 y = y? 一 1。 和 暂且 先 在 此 假设 下 推导 出 )s 的 最 优 取 值 
的 公式 。 然 后 ,可 将 此 思路 推广 到 在 一 般 情况 下 确定 最 优 值 的 公式 。 

WA, AS 的 当前 取 值 分 别 为 习 A 。 固 定 其 余 变量 的 值 : AS — AP AQ T APA 
An o BRR As 和 4s 应 当 满 足 的 条 件 。 在 hs m APA. AP wm 一双 以 及 y — y? 一 1 的 
情况 下 ,要 使 式 (6. 21) 得 到 满足 , 则 有 Ah HA = 一 > A yO 一 对 HAr 。 为 了 简化 数学 记号 ， 


m 


定义 五 王位 Hài 。 由 此 ,Xi 和 Xs DUE IE AR FIF A HA = H. BT A F A 还 必须 满足 非 负 
TER TE BI A, 2 0.3? 三 0, 所 以 有 


0s A, « H 
| 6. 30) 


à —H—AÀ 
坐标 下 降 算 法 的 任务 就 是 选取 一 组 满足 式 (6. 30) 且 使 目标 函数 值 最 大 的 Ah 和 4。。 
进一步 简化 记号 , 设 g( As) =G (Ai A AP ,2 ) 为 坐标 下 降 算 法 当前 的 目标 函 
数 ,并 设 


Ky = pt R= 5 My TK, R= » Aty  K, 
HERA AHER ij, WA Ku; 二 Kj,;。 应 用 以 上 的 简化 记号 ,将 g (A1 A ) 展 开 可 得 


g (a A) 7h EA DX — Aaa — MES 
1-3 


一 到 MK AR —A, (6.31) 


HFA = Hà, 因而 ,可 将 g(A A) RRIAT As 的 一 元 二 次 函数 f(A): 


LA 


fQi)7 H9] i — (H-X Ka — 3 (H CA Kia 
t=3 
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— (H —À )R, —AR; (6. 32) 
显而易见 ,最 大 化 g (a ,hz ) 实 际 上 就 是 求 式 (6. 32) 中 一 元 二 次 函数 的 最 大 值 。 解 方程 
fG0-omnf 


R;—Ri 十 HKi5 — HK 
2 Ki — Kin — Ko 


Àz 


如 果 对 任意 的 i 二 1.2.7 m. 记 


(6. 33) 


E, = J, X y? K,, 5? (6. 34) 


t 一 1 
WE R: = Es 一 A Kz — Af Kan +1, BR,-—E,—APKQ 一 邓 居 十 1。 因 此 有 
R,—R, HK, HK,;-—E,—E, —A4K,4 ARa ARa ARa ARa HR 
E, —E, + (H—At)Kia — (H—At) Kia —AKa a AK 
根据 式 (6.30) 可 知 , H —Ar — Az 。 由 此 可 知 ， 
R: —R, 十 HK 一 HK = E; — E, + (2 Ky — Kia — Ka. JAF (6. 35) 

结合 式 (6. 33) 55K (6. 350 ,得 到 方程 (Aa) — 0 的 解 为 

E,—E 


à: AP 2Ki;— Ki — K25 66.867 
最 后 由 约束 条 件 0 三 Xs <H, 可 以 得 知 / (2) AIRERA 
à- max[0.min [Az Er Ei ) (6. 37) 


M lcm UE nad 
JE ERA, = H — A; 3X £B Ai LAS 的 值 就 能 最 大 化 g( A2) — G (Ài sAr A: AES) 3X 
也 是 坐标 下 降 算 法 在 固定 AS AT ,… ,4% 的 值 时 应 当 取 定 的 4 FLA: 的 值 。 

上 述 结果 是 在 假设 y” = y? = 1 的 前 提 下 推导 得 出 的 。 下 面 将 这 个 推导 思路 推广 到 
一 般 情况 。 在 坐标 下 降 算法 的 每 一 步 中 , 设 当 前 变量 值 为 祝 ,X42 mA 。 选 取 两 个 变量 A; 
与 ,并 固定 其 他 变量 的 值 。 与 式 (6. 30) 的 推导 类 似 , 可 以 得 出 74; 满足 如 下 约束 条 件 : 


0 二 为 过 好 二 对 5 如 果 yo = y? (6.38) 
A Z max(0,Aj —A }， WMR y? Ay” i 
换 句 话说 ,如 果 定 义 
AT SpA. 如 果 a — Q0) 
Hu = H ! 如 果 p pit (6. 39) 
ee, 9 Z9 
0. 如 果 y? E 
Lij = ` (6. 40) 
ý E 一 好}， WR y? Ay? 


JW A, RE EE Lu; <A < Hijo 
与 式 (6. 37) 的 推导 类 似 ,算法 在 当前 搜索 中 应 当 将 A; 取 值 为 


c Afi E; — E; 
y= max{ Lis minfa; TREE (6.41) 


其 中 , Ku = (ria) E: WME; 由 式 (6.34) 定 义 。 
由 式 (6. 410 £8.58] A; 的 值 后 ,就 可 以 根据 式 (6. 21) 确 定 ) 的 值 了 。 记 上 —A;—A; 为 算法 
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在 当前 搜索 中 对 变量 AS 的 调整 量 。 由 于 要 求 Xy 十 Niy —ADy? HA y, AEA 
À —AP—y9?y99, (6. 42) 

由 式 (6. 41) RI (6. 42) B XE D] A; FLA; 能 使 式 (6. 24) 的 目标 函数 达到 其 最 大 值 。 因 此 ， 
这 也 是 坐标 下 降 算法 在 固定 其 他 m 一 2 个 变量 时 应 当 取 定 的 4; FLA; 的 值 。 这 就 是 SMO 
算法 。 

图 6.5 是 SMO 算法 的 完整 描述 。 给 定 m 条 可 分 离 的 训练 数据 S — (Ox. y». 
Qc? , y? ) G ,y”)}。SMO 算 法 的 目标 是 优化 式 (6. 24), 并 根据 相应 的 对 偶 最 优 解 4 
计算 出 式 (6. 16) 中 原始 问题 的 最 优 解 w.b。SMO 算法 有 一 个 输入 参数 N, 表示 坐标 下 降 算 
法 搜索 的 轮 数 。 在 每 一 轮 搜 索 中 ,依次 循环 地 选取 分 量 i 与。 对 任意 一 组 i 与 j, 首先 按照 
式 (6.41) 和 式 (6. 42) WO A; 53 A; 的 取 值 ,然后 更 新 原始 变量 5b 的 值 。 根 据 式 (6. 29) ,如 果 更 
新 之 后 的 7 不 为 0, 则 


b= y? 一 3 Ay ?K,; (6.43) 
同样, 如 果 更 新 之 后 的 不 为 0, 则 


0 一 y9 一 »» A? Kaj (6. 44) 
因此 ,算法 首先 检验 4; 是 否 大 于 0。 如 果 X; 大 于 0, 则 按照 式 (6. 43) 更 新 6b 的 值 。 随 后 检验 


A; dé f KT 0, 如 果 是 , 则 按照 式 (6. 44) 更 新 6b 的 值 。 因 为 调整 过 的 ;与 4; 不 可 能 同时 大 于 
0, 所 以 检验 次 序 并 不 重要 。 


算法 最 后 按照 式 (6. 25) 计 算 原始 变量 w 的 值 ,并 输出 模型 h (x) 二 Sign(《w,x) +b). 


SMO 算法 
4 一 0,0 一 0 
for each isj: Kij = (x® ,x ) 
forr = 1,2, Ni 
fori = 1,2, s,m: 
for = 1,2, sm: 
ð = max{ Li, ， min 人 tux PE grin } Fs 
Àj A T6, 
À 7 — y? y? 8; 
if A; 0; 
b-y?-— p» à »? Ki 
m 


else if A; > 0: 


bo y? — 91 à y? K,; 
A 


6.5 SMO 算法 描述 
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w= Sa yt xm 
ie 


return h (x)= Sign( (w.x) +b) 


图 6.5 (55 


图 6. 6 是 支持 向 量 机 的 SMO 算法 的 实现 。 第 3 行 定义 了 支持 向 量 机 类 SVM。 第 48 一 
51 行 中 的 fic 函数 是 算法 训练 模型 的 成 员 函 数 。 首 先 ,第 49 行 计算 方 阵 K, 其 中 Ki 一 
(c? x0); 然后 ,第 50 行 调用 在 第 16 一 46 行 中 定义 的 smo 函数 来 计算 式 (6. 24) 的 最 优 解 
A 以 及 式 (6. 16) 的 最 优 解 中 的 4 值 ; 最 后 ,第 51 行 按照 式 (6. 25) 计 算式 (6. 16) 的 最 优 解 中 的 
w 值 。 

第 16 一 46 行 给 出 了 SMO 算法 。 第 18 行 初始 化 4 的 值 。 第 20 行 开始 NN 轮 坐标 下 降 搜 
索 。 在 每 一 轮 搜 索 中 ,依次 循环 地 选取 分 量 ; 与 )， 对 每 一 组 选 出 的 分 量 i 与 j , 在 第 23 (i 
算式 (6.41) 中 的 分 母 D = 2 Ku; 一 Ku Kijo (E58 24 行 中 判断 : 如 果 分 母 Di 十 分 接近 
0, 则 跳 过 该 循环 。 第 26,27 行 按照 式 (6. 34) 计 算 E; 和 EE;。 第 28—38 行 按照 式 (6. 41) 计 算 
A; 的 取 值 以 及 调整 量 6; 的 值 。 其 中 ,第 29 行 调 用 了 在 第 4 一 8 行 依照 式 (6. 39) 定 义 的 get_ 
H 函数 来 计算 Hu. 第 30 行 调用 了 在 第 10—14 行 依照 式 (6. 40) 定 义 的 get_L 函数 来 计算 
Liv。 第 39 一 40 行 按照 式 (6. 420 TET A; 的 取 值 。 第 41 一 44 行 按照 式 (6. 43) 与 式 (6. 44) 来 维 
F b 的 值 。 在 第 53、54 行 的 predict 成 员 函 数 中 ,用 最 终 得 出 的 w 与 4 建立 模型 ws (x) 二 
Sign(《w,x) 十 0), 并 以 此 对 测试 数据 进行 预测 。 


machine learning.lib.svm smo 
1 import numpy as rp 
2 
3 class M: 
4 def get. H(self, Lambda, i, j, y): 
5 if y i]--Yx3l: 
6 retum Lenbde i] Lenbee[ 3] 
7 else: 
8 retum float ("inf") 
9 
10 def get. L(self, Ienbda, i, j, y): 
n it X il--YXjl]: 
2 retum 0.0 
13 else: 
14 return mex (0, Ianbda[ j]- Lambal i]) 
15 


图 6.6 支持 向 量 机 的 sp 算法 
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16 Gef smo(sel£, X, y, K, N): 

17 m, n-X.shape 

18 Lenbda- np.zeros ( (m 1)) 

19 epsilon-le- 6 

20 for r in range (N): 

2 for i in range (m): 

2 for j in range m): 

23 D ij-2* K i]L3]- & 3]L2]- KC 31L3] 
24 if abs(D ij)« epsilon: 

25 continue 

26 i-K :, i].dot(Lembda * y)- Y i] 
27 2, j] -dot (Tanbdax y)- Y 3] 
28 delta j- 4. 3] * (E 3- E i)/D ij 
29 H _ij=self.get_H(Lambda, i, j, y) 
30 L ij-self.get L(Lanbda, i, j, y) 
31 if Lenbda[ j]* delta j>H ij: 

32 delta j-H ij- Ienbdd j] 
3 Ienbdd j]-H ij 

34 elif Ienbdd j]*delta j«L ij: 

35 delta j-L ij- Lambad j] 
36 Iambda[ j]-1 ij 

37 else: 

38 Lanbda[ j]*- delta j 

39 delta i-- y i]* y[j] * delta j 
40 lanbdd i]-- delta i 

bi if Lenbde[ i]» epsilon: 

42 b-X i]-K :, i].dot (Lenbda * y) 
43 elif Iaribde[ j]> epsilon: 

44 b-YL3]- K :, 3] -dot (Labda * y) 
45 self.Lenbda- Lanbda 

46 self.b-b 

47 

48 œf fit (self, X, y, N- 10): 

49 K- X.dot (X.T) 

50 self.sm(X, y, K, N) 

51 self.w=X.T.dot (self.lenbda * y) 

52 

53 def predict (self, X): 

54 retum rp.sign (X.dot (self .w)+ self.b) 


图 6.6 ($5 
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例 6.1 山药 尾 预测 问题 的 支持 向 量 机 算法 。 
对 图 2. 6 所 示 的 山高 尾 的 训练 数据 ,采用 支持 向 量 机 算法 来 计算 正 负 采 样 的 分 离 直 
线 , 并 将 该 直线 用 于 对 测试 数据 的 正 负 采样 分 离 。 相 应 的 程序 见 图 6. 7。 运 行 图 6.7 的 
程序 后 ,输出 的 图 形 见 图 6.2。 支 持 向 量 机 在 训练 数据 上 计算 出 的 一 条 直线 ,不 仅 完全 分 
离 了 训练 数据 的 正 负 采样 (图 6. 2 (200 ,而且 还 完全 分 离 了 山高 尾 测 试 数据 的 正 负 采样 


(图 6.2 (CDD, 


Bg 


BRBBNBB 


did 


1 import numpy as np 

fram sklearn import datasets 

fram sklearn.model selection import train test split 
fram machine learning.lib.svm smo import SVM 

import matplotlib.pyplot as plt 


def plot figure(X, y, model): 
z-np.linspace (4, 8, 200) 
w-mdel.w 


10 — bemodel.b 
u  I--wWO0]/A1]*z-b/wW1] 

12  pitplot(:, Ol :, 0]-21], X :, 1]. :, 0]-- 1], "be") 

13  plt.plotd :, JL: o]--- 1], x s, Ml: 0]-- - 1], "yo") 
14 plt.plot(z, L) 

15  plt.show() 


17 iris-datasets.loed iris() 
18 X-cirid "deta"] :, (0,1)] 


9 y-2* (iris "target"]-- 0) .astype (np.int) .reshape(- 1,1) - 1 
X train, X test, y train, y test-train test split (X, y, test size- 0.4, randam state- 5) 


model- SVM() 

model.fit(X train, y train, N= 10) 
plot figure(X train, y train, model) 
plot figure(X test, y test, model) 


图 6.7 山 营 尾 预测 问题 的 支持 向 量 机 算法 


以 上 所 述 就 是 SMO 算法 的 基本 内 容 。 需 要 指出 的 一 个 SMO 算法 的 特性 是 : SMO 算 
法 只 涉及 特征 的 内 积 Ku; 一 《x xP), 并 不 涉及 特征 本 身 。SMO 算法 的 这 个 特性 是 6. 3 
Pp 将 要 介绍 的 核 方法 的 基础 。 
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6.3 核 方法 


在 本 章 的 前 两 节 中 ,始终 假定 训练 数据 中 的 正 采 样 与 负 采 样 之 间 存 在 分 离 平 面 。 如 果 
训练 数据 不 满足 这 个 可 分 离 条 件 , 则 式 (6. 16) 的 凸 优化 问题 没有 可 行 解 , 因 而 也 就 无 从 谈 起 
对 偶 理论 与 优化 算法 。 因 此 ,存在 分 离 平面 这 个 条 件 在 很 大 程度 上 限制 了 支持 向 量 机 算法 
的 应 用 。 当 正 负 采 样 之 间 不 存在 分 离 平面 时 ,需要 对 支持 向 量 机 算法 作 进一步 改进 。 核 方 
法 与 软 间隔 支持 向 量 机 算法 都 属于 改进 的 支持 向 量 机 算法 。 本 节 介 绍 核 方法 ,6. 4 节 再 介 
绍 软 间隔 支持 向 量 机 算法 。 

核 方法 起 源 于 如 下 的 思想 : 即使 正 负 采 样 之 间 不 存在 分 离 平面 ,它们 以 某 种 方式 在 高 
维 空间 中 的 投影 也 有 可 能 被 某 个 平面 所 分 离 。 此 时 ,可 以 用 支持 向 量 机 算法 计算 高 维 空间 
中 的 这 个 分 离 平面 。 然 后 ,将 该 平面 做 入 原 空间 ,得 到 原 空间 中 正 负 采 样 之 间 的 一 个 非 线性 
边界 。 

例 6.2 考察 图 6. 8 中 的 训练 数据 。 从 图 中 可 以 看 到 , 正 采样 与 负 采 样 之 间 不 存在 任何 
分 离 直线 。 此 时 ,不 能 直接 使 用 支持 向 量 机 算法 。 

1.00 - 
07] s "S aR | 。 正 采 样 
0.50 "E t . "o 负 采 样 


o x "u ,* či 


0.00 
-0.25]。 
-0.501 


-0.75 TE 


—1.00+ — - yi T 
-1.00 -0.75 -0.50 -0.25 0.00 0.25 0.50 0.75 1.00 
图 6.8 无 线性 边界 的 正 负 采 样 


然而 ,存在 如 下 多 项 式 化 投影 pE 一 RO. 
$(n5x2) Giai x) 

HH e 将 图 6. 8 中 的 训练 数据 投影 到 三 维 空间 中 , 见 图 6.9。 在 图 中 可 以 看 到 , 正 负 采样 的 投 
影 之 间 存 在 分 离 平面 。 

有 了 这 个 投影 变换 ,就 可 以 对 图 6. 9 中 变换 后 的 数据 用 支持 向 量 机 算法 找到 如 图 6. 10 
(a) 所 示 的 分 离 平面 。 然 后 ,再 将 该 分 离 平 面 柑 入 二 维 空间 ,就 能 得 到 图 6. 10(b) 中 所 示 的 非 
线性 (椭圆 ) 边 界 。 

例 6. 2 展示 了 处 理 非 线 性 边界 的 一 个 基本 方法 , 即 ,借助 于 高 维 空间 来 分 离 正 负 采 样 。 
这 与 第 3 章 中 的 多 项 式 回归 的 思想 类 似 。 在 定义 3.4 中 介绍 了 特征 组 的 4 次 多 项 式 化 的 概 
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。 正 采样 投影 
I AARRE 


.4 02 
x1 06 0.8 1.0 90 


图 6.9 图 6.8 中 的 训练 数据 在 三 维 空间 的 投影 


-1.00 . 一 一 一 一 一 
—1.00 -0.75-0.50-0.25 0.00 0.25 0.50 0.75 1.00 


(b) 


(a) 
图 6.10 三 维 空间 中 的 分 离 平 面 及 其 在 二 维 空间 中 的 椭圆 边界 


念 。 将 特征 多 项 式 化 ,实际 上 是 一 种 向 高 维 空间 的 投影 方式 。d 次 多 项 式 化 可 将 一 个 维特 


EA x= (arr BEN N= (4) oon ezn: 


gu awe 1 e esse (6. 45) 
存储 这 样 的 高 维 向 量 , 需 占用 大 量 内 存 空 间 ,而 且 优 化 算法 的 时 间 复 杂 度 也 大 幅度 增加 。 因 
此 ,特征 多 项 式 化 的 代价 是 算法 复杂 性 的 增加 。 
核 方法 关注 的 对 象 是 一 类 特殊 的 高 维 投影 。 它 能 使 支持 向 量 机 算法 在 高 维 空间 中 依然 
有 较 低 的 时 间 与 空间 复杂 度 。 满 足 要 求 的 投影 $ 有 如 下 特点 : 对 任意 两 个 nn 维 向 量 x 和 zx， 
它们 投影 的 内 积 ($ (x),$(z)) 有 高 效 的 计算 方法 。 
例 6.3 对 例 6.2 中 的 多 项 式 化 投影 作 如 下 修改 : 
$ (T1172) = (aiat: V2 22) 
则 对 任意 x= (n2) B z— (m 22) 8H. 
($(x).$ CO) = (x.z)? 
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由 此 可 见 , 为 了 计算 (8(x),$(z)) ,只 需 计 算 (x,z) 而 不 必 关 注 $(x) 5 $ (2) PRU, 
例 6.4 将 例 6.3 中 的 投影 推广 到 一 般 情形 。 考 察 投影 $: 民 一 RP. 


$ (Ziyzz ) 一 (4 sd zf! x, [四 ls (^) ns .| 
1 


HEX x= (21m ) B z— (zi,zz); 有 
($(x).$G) = (x.z)! 
由 此 可 见 , 要 计算 ($8(x),$(z)) REI) f d 次 方 。 根 据 算法 理论 ,该 运算 的 时 间 复 
杂 度 为 O(logd) , 且 无 须 存 储 $5(x) 与 $(z) 的 值 。 
SMO 算法 只 涉及 计算 特征 组 的 内 积 Ky 二 《x x70 , 而 并 不 涉及 特征 组 本 身 。 此 外 ， 
根据 式 (6. 25) ,支持 向 量 机 模型 (x) 二 Sign((w*,x) 十 b” ) 还 可 以 表示 为 


h(x)= Sign( » AjGy (x9 x) -4-b* ) 
i=l 


由 于 h(x) 的 表达 式 也 只 与 内 积 (x” ,x) 有 关 , 而 不 涉及 特征 组 本 身 ,因此 ,即使 投影 变换 $ 
将 特征 组 转化 成 为 高 维特 征 , 支 持 向 量 机 算法 也 不 需要 具体 使 用 投影 %(x) 的 信息 ,而 只 需 
通过 内 积 计算 就 可 完成 模型 训练 和 预测 。 只 要 对 任意 向 量 x 和 <, 能 高 效 计算 其 投影 内 积 
($ (x) ,$8(z)) ,算法 就 有 较 低 的 时 间 与 空间 复杂 度 。 以 上 就 是 核 方法 的 中 心思 想 。 

定义 6.2( 核 函数 ) iE M RN Hn 维 空间 到 NN 维 空间 的 投影 。 对 任意 的 x,z€ R. 
定义 投影 % 的 核 函数 为 

K, (xz) — ($(x),$(z)) (6. 46) 

基于 核 函 数 思想 ,可 以 改进 SMO 算法 来 实现 高 维 投影 的 核 方法 。 由 于 SMO 算法 只 涉 

及 内 积 计算 ,可 以 修改 图 6.5 中 的 算法 ,得 到 带 核 函数 的 SMO 算法 ,如 图 6. 11 所 示 。 


带 核 函数 的 SMO 算法 
1 和 一 0 
for each i,j : Kij = K, (x® x” ) 
forr = 1,2,-. Ni 
fori = 1,2,*.m: 


forj = 1,2,*.m: 


5 = max{ Liy» minfa | xS ga) aj 
Àj Àj +ò; 

À -—À —y? y? à; 

ifa > 0: 


b=- Ë hyo Ku 


else if à; > 0: 


图 6.11 AAAH SMO 算法 描述 
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Bg Dy 
pet 


return h (x) 一 se » Ay? K, (x? ,x) +0) 
m 


6.11 (45 


一 个 值得 指出 的 区 别 是 ,此 时 无 法 用 核 函数 来 计算 原始 变量 w 了 。 因 此 ,需要 用 式 
(6.47) 中 的 模型 形式 作为 支持 向 量 机 算法 的 输出 : 


h(x)— si > 4,99 KG? x) +0) (6. 47) 
t=1 


图 6. 12 是 图 6. 11 中 算法 的 实现 。 算 法 实现 了 KernelSVM 类 。 带 核 函 数 的 SMO 算法 
与 原始 的 SMO 算法 的 区 别 仅 在 于 它们 对 和 矩阵 天 的 计算 方式 不 同 。 图 6.12 中 的 
KernelSVM 继承 了 图 6. 6 中 的 SVM 类 ,从 而 可 以 重用 SVM 类 中 的 smo 函数 。 第 5 行 由 
KernelSVM 的 构造 函数 传人 指定 的 核 函 数 kernel, 


1 import numpy as np 
2 frammachine learning.lib.svm smo import SVM 
m 
4 class KernelSVM(SVM : 
5 def init — (self, kernel- None) : 
6 Self.kernel- kernel 
7 
8 def get. K(self, X 1, X 2): 
9 if self.kernel-- None: 
10 return X l.dot(X 2.T) 
n ml, m= len(X 1), len(X 2) 
12 K-np.zeros((ml, n2)) 
13 for i in range(ml): 
14 for j in range (m2) : 
15 K i][3]- se1£.kernet 1L i], x 4j]) 
16 retumK 
17 
18 df fit(self, X, y, N- 10): 
19 K-self.get KX, X) 
20 self.smo(X, y, K, N) 
2a self.X train=X 
22 self.y train-y 


图 6.12 ” 带 核 函数 的 SMO 算法 
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23 
24 def predict (self, X): 

25 Keself.get K(X, self.X train) 

26 retum np.sign (K.dot (self.Iambda * self.y train)* self.b) 


图 6.12 ( 续 ) 


在 第 18 一 22 行 实现 的 fic 函数 中 训练 带 核 函数 的 支持 向 量 机 模型 。 首 先 ,第 19 行 调用 
第 8 一 16 行 中 定义 的 get_K 函数 来 计算 矩阵 KK; 然后 ,第 20 行 调用 基 类 的 smo 函数 来 计算 
A 5i bs 最 后 ,由 于 在 式 (6.47) 的 模型 中 需要 用 到 训练 数据 的 信息 ,所 以 在 第 21,22 行 中 分 别 
Jg X y 保存 在 类 的 成 员 Xwss 和 ys 中。 第 24 一 26 行 实现 了 predict 函数 ,其 功能 是 按照 式 
(6.47) 对 测试 数据 进行 预测 。 

支持 向 量 机 核 函数 的 选择 对 于 算法 的 实现 以 及 算法 的 效果 都 有 着 至 关 重 要 的 作用 。 通 
常 ,有 多 种 可 以 选用 的 核 函 数 。 多 项 式 核 函数 和 高 斯 核 函数 是 最 常用 的 两 个 核 函 数 。 

定义 6.3( 多 项 式 核 函数 ) 设 x,zE 开 ,将 如 下 形式 的 函数 


K(x,z)— 十 1 (6. 48) 
称 为 多 项 式 核 函 数 ,其 中 d 为 常数 。 
多 项 式 核 函 数 对 应 的 投影 变换 是 多 项 式 投影 pR 一 RN: 
$ Gn «x2 En) — (6a ina, ap Dod t me CÓ (6. 49) 


式 (6.49) 的 等 号 右 端 是 一 个 N 一 k Ten 维 向 量 。 它 的 每 个 分 量 表示 一 个 次 数 不 超 过 4 的 


单项 式 co LI arta o BEP, Casape, 是 该 单项 式 的 系数 ,其 表达 式 为 
1 
arara 4 laz! a, ! (d E. m ur 
对 任意 向 量 x,z € RP. 由 式 (6.49) 定 义 的 多 项 式 投影 $ 的 核 函 数 满足 
($(x).$(z) = (G2) 十 1)4 

比较 式 (6. 45) 与 式 (6.49), 二 者 只 相差 一 个 常数 系数 c。 ,。,,…,。,。 从 训练 线性 模型 的 角度 
来 说 ,二 者 并 无 本 质 区 别 。 然 而 , 式 (6. 49) 中 的 投影 将 大 幅度 缩减 核 函 数 计算 的 空间 需求 及 
时 间 复 杂 度 。 存 储 式 (6. 45) 中 的 多 项 式 化 特征 需要 O(N) 二 OGVO 的 内 存 空 间 , 计 算 多 项 
式 特征 的 值 的 时 间 复 杂 度 为 O(N) 二 O (n ) s 而 计算 式 (6. 48) 的 多 项 式 核 函数 的 时 间 复 杂 
度 仅 为 O(n 十 logd), 空间 复杂 度 为 O(n)。 两 者 的 效率 相差 很 大 ,这 就 是 核 方 法 的 优势 
所 在 。 

定义 6.4( 高 斯 核 函数 ) x.z €E 妇 ,将 如 下 形式 的 函数 


(6. 50) 


NFL 
K(x.z)—-e * (6.51) 


称 为 高 斯 核 函数 ,其 中 6o 为 常数 。 
高 斯 核 函 数 也 被 称 为 RBF(Radial Base Function, 径 向 基 范 数 ) 核 函数 。 高 斯 核 函 数 对 
应 的 投影 变换 是 维 空间 向 无 限 维 空间 的 投影 。 以 n= 二 1 Ho — 1 的 情形 为 例 ,考察 如 下 投 
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影 $:R> EK: 


XE | 
sca (Ie 5 eg 后 p- AT 
对 任意 的 x,z € R. 此 投影 变换 $ 满足 


WW 3 d m3 
Gose» X(7* 7 =) 


p om E P+? Ill? 
=ë ED i ayse 1 =e 
i-o 1* 


(6. 52) 


其 中 ,对 式 (6. 52) 推 导 需 要 用 到 泰勒 级 数 er — >) I asy. 

例 6.5 变色 膏 尾 识别 问题 。 

变色 昔 尾 识别 问题 的 任务 是 根据 营 尾 花 的 花 准 长 与 花瓣 宽 来 识别 给 定 瘟 尾 花 是 否 为 变 
ESE. SR GT Sklearn 数据 库 中 的 营 尾 花 数据 集 。 仅 对 每 株 营 尾 花 的 标签 作 了 变动 ， 
如 果 营 尾 花 的 种 属 是 变色 昔 尾 , 则 标签 值 为 十 1 ,否则 标签 值 为 一 1。 

图 6. 13 是 变色 车 尾 训练 数据 中 正 采样 与 负 采 样 的 分 布 情况 。 从 图 中 可 以 看 到 , 正 采样 
与 负 采 样 之 间 不 存在 分 离 直线 。 
3.0 


s EERE +H 
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图 6.13 变色 营 尾 识别 问题 的 训练 数据 
图 6.14 中 的 程序 调用 图 6. 12 中 带 核 函数 的 SMO 算法 求解 变色 昔 尾 识别 问题 。 第 
7 一 9 行 实现 高 斯 核 函数 。 第 11 一 14 行 处 理 数 据 。 第 15、16 行 调用 KernelSVM 训练 模型 。 
第 18 一 26 行 用 Pyplot 作 图 工具 绘制 模型 预测 边界 。 
运行 图 6. 14 中 的 程序 ,可 得 到 如 图 6. 15 中 的 结果 。 在 图 6. 15 中 可 以 看 到 , 核 方法 准 
确 地 计算 出 了 一 个 区 分 训练 数据 中 正 采 样 与 负 采 样 的 非 线性 边界 。 
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inport numpy as np 

fram sklearn import datasets 

fram sklearn.model selection import train test split 
import matplotlib.pyplot as plt 

frum machine learning.lib.kernel swm import KernelSUM 


def bf kernel(xl, x2): 
sige 1.0 
retum np.exp (- np.linalg.nom(xl- x2, 2) ** 2/sigma) 


iris-datasets.load iris() 
X iris "data"][ :, 9,3] 

y-2* (rid "target" ]-- 1) .astype (np.int) .reshape(- 1,1) - 1 

X train, X test, y train, y test-train test split(X, y, test size- 0.4, randm state- 5) 
model- KernelSWM (kernel- rbf kernel) 

model.fit(X train, y train) 


x0s= np.linspace (1, 7, 100) 

xis-np.linspace(0, 3, 100) 

x0, xl- np.meshgrid(xOs, xls) 

W-np.c [ x0.ravel(), xl.ravel()] 

u-model.predict (W) .reshape (x0. shape) 

plt.plot(X trai :, (Ly taid :, Q=] , X tail :, Dy taid :, 0]— 1], "be") 
plt.plot (X trail :, [y txair[ :, Q=- 1], X taid :, Dy taid: J=- 1], "yo") 
plt.contourf (x0, xl, u, alpha- 0.2) 

plt.show() 
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图 6.14 变色 营 尾 预测 问题 的 核 方法 


1 2 3 


4 
TERK 
图 6.15 高 斯 核 函 数 输出 的 营 尾 花 正 负 采 样 的 非 线 性 边界 


在 实际 应 用 中 ,如 果 多 项 式 核 函数 与 高 斯 核 函 数 都 无 法 满足 需求 , 则 必须 自行 设计 合适 
的 核 函数 。 从 式 (6. 51) 和 式 (6. 52) 可 以 看 出 ,即使 一 个 核 函数 的 形式 十 分 简单 ,与 其 对 应 的 
投影 依然 可 能 较 复杂 。 如 果 必 须 先 设计 投影 ,再 推导 出 相应 的 核 函 数 , 则 需要 较 高 的 构造 技 
巧 。 因 此 ,更 常见 的 核 函 数 的 设计 方法 是 直接 设计 核 函数 本 身 ,而 不 关注 其 对 应 的 投影 方 
式 。 然 而 ,并 不 是 任何 函数 都 可 以 作为 核 函 数 。 人 恰当 的 核 函数 必须 满足 一 定 的 条 件 。 

BK, 是 一 个 核 函数 , 即 K; (x,z) 二 《$8(x),$(z))。 EP, p(x)= Ch (x) ds (x) 7 
gn (x)) 是 将 x 向 高 维 空间 中 的 投影 。 对 任意 取 定 的 m 个 特征 组 x ex? x” EX 
mX m EPEK = (Ks )icijen, 其 中 , Kj; = K,(x? x? )。 将 KK 称 为 XY x0 ue APHIS 
阵 。 依 此 记号 ,对 任意 向 量 xz, 有 


zTKz 一 2) ziKs zj 一 之 zil (x? ) d (x? )) aj 
N 
= Ms(2 $G)&0))s 


=>, (È agt) 20 (6.53) 
这 说 明 , K 是 一 个 半 正 定 和 矩阵 。 因 此 ,一 个 函数 是 核 函 数 的 一 个 必要 条 件 是 任意 个 
向 量 的 核 矩 阵 为 半 正 定 矩 阵 。 实 际 上 ,这 也 是 一 个 函数 是 核 函 数 的 充分 条 件 。 
定理 6.4 一 个 函数 K 是 某 个 特征 投影 的 核 函 数 的 充分 且 必 要 条 件 是 , 它 对 任意 m A 
向 量 x ax? Lee ax 定义 的 核 矩阵 (Ki )i<iv<w 为 半 正 定 和 矩阵, 其 中 Kj; = K (x? x? )。 
满足 定理 6. 4 中 的 条 件 的 函数 才 可 能 成 为 合法 的 核 函 数 。 定 理 6. 4 是 构造 核 函 数 时 必 
须 遵 循 的 理论 依据 ,也 是 必须 遵守 的 重要 法 则 。 


6.4 软 间隔 支持 向 量 机 


除了 核 方法 之 外 , 软 间 隔 支持 向 量 机 是 另 一 类 处 理 非 线性 边界 的 支持 向 量 机 算法 改进 。 
与 术语 软 间 隔 相 对 应 的 是 硬 间 隔 。6. 1 节 中 介绍 的 支持 向 量 机 算法 又 称 为 硬 间隔 支持 向 量 
机 算法 。 在 本 节 中 ,首先 介绍 软 间隔 支持 向 量 机 的 基本 思想 与 优化 算法 。 然 后 介绍 Hinge 
损失 函数 ,并 从 Hinge 损失 的 角度 来 诠释 软 间隔 支持 向 量 机 算法 。 


641 软 间隔 支持 向 量 机 基本 概念 


在 硬 间隔 支持 向 量 机 算法 中 ,训练 数据 的 可 分 离 性 反映 为 约束 条 件 yO wx?) Hb) 23. 
软 间隔 支持 向 量 机 算法 的 思想 是 : 放宽 这 组 约束 条 件 ,并 将 其 以 惩罚 项 的 形式 反映 在 目标 
函数 中 。 具 体 来 说 , 软 间隔 支持 向 量 机 的 任务 是 求解 以 下 优化 问题 : 


x d A S. 
min 5 wl *ci & 
Wi: y (wx?) +b) >1—Ẹ&, i-—l.2.-.m 
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£j 20, i—]1.2,-.m (6.54) 
在 式 (6. 54) 所 描述 的 优化 问题 中 , 式 (6. 16) 中 的 约束 条 件 被 放宽 了 , 即 , 对 任意 i 都 只 
HRK y? (Ow. x? ) +b)>1— &. 而 不 再 要 求 y?(《w,x”) 十 5) 之 1, 与 之 相对 应 的 是 式 


(6. 54) 的 目标 函数 中 增加 了 一 个 惩罚 项 c» &. R6. 54) rh & JE A) LI 2 iE SEL RK, 


惩罚 值 就 越 大 (i 一 1,2,…',m)。C(CC>0) 是 算法 的 一 个 参数 ,用 以 控制 惩罚 的 强度 。 如 果 将 
C 取 为 十 cc , 则 软 间 隔 支持 向 量 机 算法 就 是 硬 间隔 支持 向 量 机 算法 。 

如 果 存 在 训练 数据 的 分 离 平 面 , 则 软 间隔 支持 向 量 机 与 硬 间 隔 支持 向 量 机 将 计算 出 相 
同 的 分 离 边 界 。 但 是 ,如 果 训 练 数据 不 存在 分 离 平面 , 则 硬 间隔 支持 向 量 机 无 法 运行 ,而 软 
间隔 支持 向 量 机 依然 能 计算 出 一 个 近似 地 分 离 训练 数据 中 正 负 采 样 的 线性 边界 。 

为 了 求解 软 间隔 支持 向 量 机 的 优化 问题 ,首先 刻画 式 (6. 54) 的 对 偶 问题 。 由 于 其 推导 
思路 与 步骤 均 与 6. 2 节 中 的 推导 类 似 , 因 而 在 此 仅 指出 不 同 之 处 。 设 入 三 0 与 有 三 0 分别 是 
ARRIE y? (Ovx?) 十 四) 三 1 一 和 与 约 东 条件 和 三 0 相对 应 的 拉 格 朗 日 乘 子 , 则 式 (6.54) 
的 拉 格 朗 日 函数 有 如 下 形式 : 


m 


iimte b= | -- 33(€—A — 36 2 iy oua 
2 
i=l 


. A (6. 55) 
-(È T 2034 
tot EVA REOS PRR G (4) — min L (COw'0 5. 有 的 公式 ， 
一 co， 如 果 > 2 y? 4 08x C—À, — f — 0 
G()— 41, a es 
bu -4> AA ye y? QO x0), 否则 
根据 上 述 对 偶 函 数 的 形式 ,可 以 写 出 式 (6. 54) 的 对 偶 问题 如 下 : 
max G(bH)- YA -15 A Aj yË YPP La? 
i=l ij=l 
HIA? —0 
D Á (6. 56) 
C—A;—Bz0. i—l.2.-.m 
Mi 之 0， i— 101,2,,m 


B:>0, i=1,2,,m 
式 (6.56) 还 可 以 进一步 简化 。 由 约 东 条 件 C 一 Xi; e SoA, BKC BER ZR 
fF B, > 0 A, A; C C. FERC. 56) n] URSA 


max G(A.f) — X Ài — 这 MN y9 (x9 90) 
i=l 
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OxA;xC, i—Ll2,-.m 
3X C6. 57) 就 是 软 间隔 支持 向 量 机 的 对 偶 问 题 。 借 助 于 KKT 条 件 , 可 以 用 式 (6. 57) 中 对 
偶 问题 的 解 来 间接 地 求解 式 (6. 54) 中 的 原始 问题 。 设 w^ .0 .5 ”是 式 (6. 54) 中 的 原始 问题 
的 一 组 可 行 解 , ”是 式 (6.57) 中 的 对 偶 问题 的 一 组 可 行 解 , 则 它们 均 为 最 优 解 的 KKT 条 
件 如 下 : 


(6.57) 


ies p? Ap? x (6.58) 
i=l 

对 (1 一 ?9 (Qi x9) +b") )= 0 (a 

(Care = 0 (6. 60) 


上 述 KKT 条 件 比 6. 2 节 中 硬 间隔 支持 向 量 机 算法 的 KKT 条 件 多 了 一 个 表达 式 , 即 式 
(6. 60) 。 该 式 的 意义 如 下 : 如 果 <C, ME = 0. Bl y? (wx) 4- b* ) 宇 1。 这 表示 训 
练 数据 点 x” 被 正确 地 分 离 了 。 因 此 ,如 果 训 练 数据 x 没有 被 软 间隔 支持 向 量 机 算法 正确 
地 分 离 ,与 之 对 应 的 对 偶 变量 AP 必然 满足 > = C. 


6.4.2. 软 间隔 支持 向 量 机 优化 算法 


由 于 式 (6. 57) 与 式 (6. 24) 有 类 似 的 结构 ,因而 可 以 通过 修改 图 6.6 的 SMO 算法 来 求解 
式 (6.57) 中 的 优化 问题 。 

式 (6. 57) 与 式 (6. 24) 的 唯一 区 别 在 于 , 式 (6.57) 中 有 一 个 额外 的 条 件 4; C. 所 以 ,只 
需 调整 SMO 算法 中 对 RREA Hu; S FEL; 即 可 。 具 体 来 看 ,在 SMO 算法 的 每 一 
prp EH BARRES Ap SAI ,…, 思 。 选 取 两 个 变量 4; 与 并 固定 其 他 变量 值 。 由 于 Xi y 十 
Aj y. — A? y? AP y 外 , 且 必 须 保证 0 过 ;三 C。 所 以 ,要 满足 如 下 约束 : 如 果 y = 
y”? , WJ max(0,A7 十 对 —C) xA; X min(C.A? +A; ) s WR y? Æ y? , 则 max(0 —A/ ) < 
à; < min(C,C--A; —A? }。 因 此 ,可 以 定义 


min(C.A? Aj). 如 果 y? = yo 

H,-2l. (6.61) 
min(C.C-crAj —A4/j. WR y? y? 
max(0.A7 --A; —C). WẸ y? = y? 

工 = | (6. 62) 


max(0,A? —A/ ). 如 果 y? ze y? 
bb 就 是 说 , A; 应 当 满 足 L;,; A; SH. 
如 此 定义 Hi; 53 Li; 之 后 . 软 间 隔 支 持 向 量 机 的 SMO 算法 的 其 他 所 有 步骤 都 与 图 6. 6 
中 的 算法 完全 相同 ,在 此 不 再 袭 述 。 
图 6. 16 是 软 间隔 支持 向 量 机 算法 的 实现 。 第 3 行 定义 的 SoftSVM 类 继承 了 SVM 类 ， 
因此 ,只 需 重 写 get H 和 get_L 函数 即 可 。 第 7 一 12 行 按照 式 (6. 61) 重 写 了 get_H 函数 。 
第 14 一 18 行 按照 式 (6. 62) 重 写 了 get_L 函数 。 
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machine learning.lib.soft sm_ smo 
1 frammachine learning.lib.svm sm import SM 


3 class SoftSWM(SWM) : 


4 def init (self, C- 1000): 
5 self.C-C 

6 

7 def get. H(self, Lambda, i, j, y): 

8 C-self.C 

9 ityi]--Xxjl: 

10 retum min(C, Lanbda[ i]+ Lambda j]) 

11 else: 

12 return min(C, C+ Lanbda[ 5 ]- Lanbda[ i]) 

13 

14 def get. L(self, Ienbda, i, j, y): 

15 ityi]--Xjl: 

16 return max(0, Lambde[ i]* Lenbdd j]- self.C) 
17 else: 

18 return max (0, Lenbde[ j]- Lanbda[ i]) 


图 6.16 软 间隔 支持 向 量 机 算法 


例 6.6 弗吉尼亚 车 尾 识别 问题 。 

仍然 采用 Sklearn 数据 库 中 的 车 尾 花 数据 集 。 本 例 考虑 弗吉尼亚 间 尾 识别 问题 。 这 个 
问题 的 任务 是 根据 芒 尾 花 的 花瓣 长 与 花瓣 宽 判断 其 是 否 为 弗吉尼亚 芒 尾 。 如 果 萝 尾 花 的 属 
种 是 弗吉尼亚 车 尾 , 则 标签 值 为 十 1 ,否则 标签 值 为 一 1。 弗 吉 尼 亚 音 尾 识别 问题 的 训练 数据 
分 布 如 图 6. 17 所 示 。 


" ARESE. + 
5] © Hie. -1 


A 


4 5 6 T 
ERK 
图 6.17 弗吉尼亚 营 尾 识别 问题 的 训练 数据 分 布 
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从 图 中 可 见 , 训 练 数据 的 正 采 样 与 负 采 样 之 间 不 存在 分 离 直 线 。 考 虑 采用 软 间隔 支持 
向 量 机 算法 求解 弗吉尼亚 音 尾 识别 问题 。 图 6. 18 中 的 程序 是 用 图 6. 16 中 的 软 间隔 支持 向 
量 机 算法 来 计算 一 个 近似 的 分 离 直 线 。 


1 import numpy as np 

2 frm skleam import datasets 

3 fram sklearn.model selection import train test split 
4 franmachine learning.lib.soft svm swo import SoftSVM 
5 framskleamn.metrics import accuracy score 

6 import matplotlib.pyplot as plt 

7 

8 

s 


iris-datasets.load iris() 
X- iris "data"][:, 2, 3] 
10 y-2* (iris "target"]-- 2) .astype (np.int) .reshape (- 1,1) - 1 
11 X train, X test, y train, y test-train test split(X, y, test size- 0.4, randum state- 5) 


13 model- SoftSWM(C- 5.0) 

14 model.fit(X train, y train) 

15 y pred-model.predict(X test) 

16 accuracy-accuracy score(y test, y pred) 
17 print ("accuracy- ()".format (accuracy) ) 


图 6.18 弗吉尼亚 营 尾 识别 的 软 间隔 支持 向 量 机 算法 


运行 图 6. 18 的 程序 ,得 到 软 间隔 支持 向 量 机 算法 对 弗吉尼亚 音 尾 识别 的 预测 准确 率 达 
到 了 95%。 图 6. 19 是 算法 输出 的 近似 分 离 直 线 。 


zi 6 7 


2 E 


4 
RK 
图 6.19 软 间隔 支持 向 量 机 算法 输出 的 近似 分 离 直线 
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6.4.3 Hinge 损失 与 软 间隔 支持 向 量 机 


本 节 从 另 一 个 角度 来 诠释 软 间隔 支持 向 量 机 。 借 此 来 介绍 软 间隔 支持 向 量 机 的 次 梯度 
下 降 优 化 算法 。 次 梯度 下 降 算 法 是 除 SMO 算法 之 外 的 另 一 种 常用 的 软 间隔 支持 向 量 机 优 
化 算法 。 
观察 式 (6. 54) 的 约束 条 件 y? (Ovx?) +b) 1 一生。 经 过 移 项 后 得 到 & 宇 1 一 
y? (Or x?) +b). WARG. 54) 的 另 一 个 约束 条 件 & 宇 0, 可 以 得 到 
& > max(0.1— y? ((w,x®) 4-00] (6.63) 


从 式 (6. S008 Hii T] wl +CD E 可 以 看 到 : $ IC EFL ir C CR 


小 。 因 此 ,对 任意 取 定 的 wb. sk C6. 63» rf f e 的 值 应 当 是 
& = maxl(0,1 — y? ((w.x'? ) 4-52) (6.64) 
因此 ,可 将 式 (6. 54) 表 达 为 如 下 的 无 约束 优化 问题 : 


min E Iw]? +C) max{0,1— y? wsx?) 4-0) (6. 65) 
we i=] 


式 (6.65) 与 L, 正则 化 的 目标 函数 十 分 相似 。 实 际 上 , 式 (6.65) 中 的 max{0,1 一 
y? (wx ) 十 0)} 就 是 Hinge 损失 。 
定义 6. 5(Hinge 损失 ) ”将 如 下 形式 的 函数 1: {一 1,1}X R> R 
l(ysz)= max{0,1— yz) (6. 66) 
称 为 Hinge 损失 。 

Hinge 损失 函数 度量 的 是 标签 取 值 为 {一 1, 十 1} 的 二 元 分 类 问题 的 模型 预测 误差 。 
Hinge 损失 有 两 个 参数 : 第 一 个 参数 是 一 个 在 {一 1, 十 1} 中 取 值 的 标签 值 y, 第 二 个 参数 是 
一 个 取 值 为 实数 的 预测 值 >。 当 标签 值 y= 二 1 时 ,L(y,z) 二 max{0,1 一 <} . 即 , 当 预 测 值 > 三 
1 时 没有 损失 ,否则 Hinge 损失 随 着 预测 值 的 减 小 而 线性 地 增 大 。 在 标签 y = 一 1 时 ， 
[(ysz) — max{0.1 +2}. 即 , 当 预测 值 < 过 一 1 时 没有 损失 ,否则 Hinge 损失 随 着 预测 值 的 增 
大 而 线性 地 增 大 。 

基于 定义 6.5 来 重新 审视 式 (6. 65)。 将 式 (6. 65) 的 目标 函数 除 以 mC, 可 以 得 到 与 其 
等 价 的 优化 问题 : 


TEES ovo T EW T: 
min ^ 2, max(0,1 IP Cw?) 0) +z lwl (6. 67) 


式 (6. 67) 是 模型 假设 为 线性 模型 hs (c) — Ovx) Ho 且 损 失 函 数 为 Hinge 损失 的 经 验 
损失 最 小 化 算法 的 工 ; 正则 化 。 其 正则 化 系数 为 1/ (2mC ) 。 

根据 以 上 推导 ,可 以 得 到 软 间隔 支持 向 量 机 除了 SMO 算法 之 外 的 另 一 种 优化 算法 。 由 
于 Hinge 损失 函数 是 凸 函 数 , 所 以 式 (6. 67) 是 一 个 无 约束 的 凸 优化 问题 。Hinge 损失 并 不 
是 处 处 可 微 的 。 可 以 用 第 4 章 介绍 的 次 梯度 下 降 算 法 来 求解 式 (6. 67) 。 

在 次 梯度 下 降 算法 中 ,需要 计算 式 (6. 67) 中 目标 函数 的 次 梯度 。 对 任意 一 条 训练 数据 
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(x.y), 损失 函 数 为 1(y,h(r)) = max(0.1 — yCOw x) 2-0) , 考虑 如 下 向 量 : 
», =— l{y(<w,x)+b)< 1)* yx (6.68) 
v, 一 一 1{y((wxz) 十 0)<1}。y (6. 69) 
其 中 ,1{。} 为 定义 5.7 中 的 示 性 函数 。 不 难看 出 , w 与 v 分 别 为 损失 函数 1 关于 w 与 6b 的 
次 梯度 。 
图 6. 20 是 软 间隔 支持 向 量 机 的 次 梯度 下 降 算法 的 实现 。 第 13、14 行 是 图 中 算法 的 关 
键 部 分 。 第 13 行 基 于 式 (6. 68) 来 计算 式 (6. 67) 的 目标 函数 关于 w 的 次 梯度 ,这 是 由 每 一 条 
训练 数据 上 的 Hinge 损失 的 次 梯度 加 上 正则 化 项 的 次 梯度 w/ (mC ) 组 成 的 。 第 14 行 基于 
式 (6.69) 计 算 目标 函数 关于 2 的 次 梯度 。 


machine learning.lib.soft swm gd 

1 import numpy as np 

2 

3 class SoftSVM: 

4 def  dnit (self, C- 1000): 

5 self.C=C 

6 

了 def fit(self, X, y, eta= 0.01, N= 5000) : 

8 m, n- X.shape 

9 w, b- np.zeros ((n,1)), 0 

10 for r in range(N) : 

1 s (X.dot(w)*b)* y 

12 € (s< 1) .astype (np.int) .reshape (- 1,1) 
13 g w-- 1/m* X.T.dot (y* e)t 1/(n* self.C ) * w 
14 g b-- 1/m* (yx e).sun() 

15 w-w-eta* gw 

16 b-b-eta* g b 

17 self.w-w 

18 self.b-b 

19 

20 def predict (self, X): 

2 return np.sign (X.dot (self.w)+ self.b) 

图 6.20 软 间隔 支持 向 量 机 的 次 梯度 下 降 算法 

小 结 


支持 向 量 机 算法 是 常用 的 二 元 分 类 问题 的 监督 式 学 习 算法 之 一 。 当 训练 数据 中 的 正 负 
采样 之 间 存 在 分 离 平面 时 ,支持 向 量 机 算法 的 思想 是 寻找 一 个 间隔 最 大 的 分 离 平 面 。 这 样 
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的 间隔 最 大 的 分 离 平 面 最 为 中 立 。 因 此 ,算法 出 现 过 度 拟 合 的 概率 最 小 。 本 章 还 通过 一 系 
列 的 变换 将 计算 最 大 间隔 分 离 平 面 的 任务 描述 为 式 (6. 16) 中 带 约束 的 凸 优化 问题 。 

对 偶 理论 是 支持 向 量 机 算法 的 一 大 特色 。 式 (6. 24) 中 的 优化 问题 是 式 (6. 16) 的 对 偶 问 
题 。 支 持 向 量 机 的 SMO 优化 算法 先 对 式 (6. 24) 中 的 对 偶 问题 用 坐标 下 降 算 法 求解 ,然后 用 
KKT 条 件 间接 地 获得 式 (6. 16) 的 最 优 解 。 更 为 重要 的 是 ,在 整个 求解 过 程 中 ,SMO 算法 都 
只 需 涉及 两 个 特征 组 的 内 积 计 算 , 而 无 须 关注 单个 特征 组 本 身 的 信息 。 支 持 向 量 机 的 这 一 
特性 使 得 核 方法 的 应 用 成 为 可 能 。 

使 用 支持 向 量 机 算法 有 一 个 前 提 条 件 , 即 训练 数据 中 的 正 采 样 与 负 采 样 之 间 存 在 分 离 
平面 。 这 一 前 提 条 件 可 能 限制 支持 向 量 机 在 许多 实际 数据 中 的 应 用 。 核 方法 的 思想 是 : 将 
数据 投影 到 高 维 空间 ,使 得 投影 后 的 数据 存在 分 离 平面 ,从 而 可 以 在 高 维 空间 中 用 支持 向 量 
机 算法 计算 出 一 个 高 维 平面 ,然后 再 投影 回 原 空间 ,生成 原 数据 正 负 采 样 的 一 个 非 线性 边 
界 。 核 方法 关注 的 投影 方式 必须 满足 一 个 条 件 , 即 存在 计算 投影 后 数据 内 积 的 高 效 算法 。 
对 满足 这 一 条 件 的 投影 进行 变换 ,并 结合 SMO 算法 只 涉及 内 积 计算 的 特性 ,就 能 在 高 维 空 
间 中 高 效 地 运行 支持 向 量 机 算法 。 

在 数据 不 可 分 离 的 情形 下 , 软 间隔 支持 向 量 机 算法 是 除 核 方 法 之 外 的 另 一 个 支持 向 量 
机 的 改进 算法 。 软 间隔 支持 向 量 机 算法 允许 违反 分 离 条 件 , 但 其 将 违反 条 件 的 程度 作为 目 
标 函 数 中 的 一 个 惩罚 项 。 通 过 修改 SMO 算法 可 以 实现 软 间隔 支持 向 量 机 的 优化 。 本 章 的 
最 后 还 从 另 一 个 角度 来 诠释 软 间隔 支持 向 量 机 ,揭示 出 它 是 模型 假设 为 线性 模型 .损失 函数 
为 Hinge 损失 的 经 验 损失 最 小 化 算法 的 工 ; 正则 化 。 由 此 ,可 以 应 用 次 梯度 下 降 优 化 算法 来 
求解 无 约束 优化 问题 。 次 梯度 下 降 是 除 SMO 算法 之 外 另 一 种 常用 的 软 间 隔 支 持 向 量 机 优 
化 算法 。 


习题 
6.1 考察 平面 上 的 6 个 数据 采样: 
s 0 gA mi 
© —(—L1) y? =+1 
a — (0,1) y? =+] 
x9 —(10),  y9——1 
x? —(1,—1), y? ——1 


a? —(-150). 9*9 ——1 
请 计算 这 6 个 数据 采样 的 最 大 间隔 分 离 平面 ,并 指出 相应 的 支持 向 量 。 
6.2 iW S 是 一 组 训练 数据 , 且 正 负 采 样 之 间 存 在 分 离 平面 。 设 工 是 一 个 间隔 最 大 的 分 
离 平面 。 请 证 明 工 的 支持 向 量 中 一 定 既 有 正 采 样 又 有 负 采 样 。 
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6.3 类 别 预测 的 置信 度 。 

Logistic 回归 算法 基于 概率 预测 来 完成 类 别 预测 任务 。 从 而 可 以 用 概率 来 表示 类 别 预 
测 的 置信 和 度 : 样本 属于 某 类 别 的 概率 预测 值 越 大 , 则 将 其 归 为 该 类 别 的 置信 度 就 越 高 。 然 
而 ,支持 向 量 机 直接 完成 类 别 预测 任务 ,并 不 进行 概率 预测 。 那 么 ,应 当 如 何 表示 支持 向 量 
机 算法 的 类 别 预测 置信 和 度 呢 ? 一 个 常用 的 方法 是 通过 样本 与 分 离 平面 之 间 的 距离 来 表示 置 
信 度 : 距离 越 大 ,置信 度 就 越 高 。 请 在 图 6. 6 的 支持 向 量 机 算法 中 增加 一 个 函数 predict_ 
confidence 来 完成 对 置信 度 的 计算 。 

6.4 One-versus-All 方法 。 

One-versus-All 方 法 是 一 种 用 二 元 分 类 问题 的 算法 来 求解 & 元 分 类 问题 的 重要 手段 。 
设 A 是 一 个 二 元 分 类 问题 算法 。 对 于 一 个 给 定 的 元 分 类 问题 , 设 其 标签 类 别 为 1,2,… ,k。 
对 每 一 个 1 三 i 三 k, 考虑 如 下 二 元 分 类 问题 : 如 果 样 本 的 类 别 等 于 i, 则 生成 标签 十 1, 否 则 
生成 标签 一 1。 对 如 此 定义 的 一 个 二 元 分 类 问题 ,用 算法 A 训练 出 一 个 模型 六 : 对 任意 一 个 
FER xshi (x) 表示 x 属于 类 别 i 的 概率 (或 者 说 置信 和 度 )。 依 此 方法 可 以 得 到 & 个 模型 h， 
hh。 对 一 个 样本 x. One-versus-All 方法 预测 x 所 属 的 类 别 为 

argmaxh; (x) 

请 结合 习题 6. 3 ,实现 One-versus-All 方 法 ,从 而 将 支持 向 量 机 算法 拓展 到 上 元 分 类 问 

题 中 


6.5 设 Ki(x,z) 和 Ks(x,z) 是 两 个 核 函数 ,a>0 是 一 个 正 实数 。 请 证 明 

A) K(x,z) 二 Ki(x,z) 十 Ks (x,z) 也 是 一 个 核 函 数 。 

(2) K(x,z) 二 a Ki(x,z) 也 是 一 个 核 函 数 。 

(3) K (x.z) - Ky (xz)K; (x,z) 也 是 一 个 核 函数 。 

6.6 图 6.20 实现 了 软 间隔 支持 向 量 机 的 次 梯度 下 降 算 法 。 请 修改 图 6. 20 中 的 算法 
以 实现 软 间隔 支持 向 量 机 的 随机 梯度 下 降 算法 。 

6.7 图 6.16 是 软 间隔 支持 向 量 机 的 SMO 算法 。 由 于 该 算法 只 涉及 内 积 计算 ,所 以 核 
方法 也 可 以 用 到 软 间隔 支持 向 量 机 中 。 请 修改 图 6. 16 中 的 算法 以 实现 软 间 隔 支持 向 量 机 
的 核 方 法 。 

6.8 第 2 章 介绍 过 感知 器 算法 。 在 感知 器 算法 中 ,如 果 发 现 一 个 负 采 样 O y? 
于 当前 直线 (w,x) 十 6b 的 上 方 , 则 以 如 下 的 方式 更 新 模型 参数 : 

w-— wy? x? 
bebt y? 

类 似 地 , 当 发 现 一 个 正 采样 位 于 当前 直线 的 下 方 时 ,也 以 用 上 述 方式 更 新 参数 值 。 请 
问 , 应 当 如 何 将 核 方法 运用 到 感知 器 算法 中 ? 请 描述 并 实现 感知 器 算法 的 核 方法 。 

6.9 国际 政治 家 面部 识别 。 

在 Sklearn 的 数据 库 中 集成 了 一 组 由 7 位 国际 政治 家 Ariel Sharon、 Colin Powell、 
Donald Rumsfeld、George Bush,Gerhard Schroder, Hugo Chavez 和 Tony Blair 的 面部 组 成 
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的 图 片 集 。 图 6.21 是 4 幅 图 片 采 样 , 从 左 到 右 分 别 为 Gerhard Schroder, George Bush, 
Colin Powell fll Tony Blair, 


图 6.21 Sklearn 数据 库 中 的 政治 家 面部 图 片 采样 


在 Sklearn 数据 集中 有 1288 条 数据 。 每 条 数据 的 特征 组 是 一 个 1850 维 的 向 量 。 数 据 
表示 的 是 一 个 50 x 37 的 图 片 像 素 灰 度 矩 阵 。 标 签 是 一 个 0 一 6 的 整数 ,分 别 表 示 ?7 位 政 
图 6. 22 是 获取 与 观察 数据 的 程序 。 第 2 行 导 入 获取 数据 的 函数 fetch_lfw_ people。 第 
5 行 调 用 该 函数 读 取 数 据 。 第 6 行 打印 target_names, 从 而 可 以 获得 标签 与 人 名 的 对 应 关 
系 , 例 如 标签 3 对 应 George Bush。 第 7,8 行 分 别 获 取 特 征 与 标签 。 第 10 一 12 行 打印 出 一 
张 图 片 。 


import numpy as np 
fram sklearn.datasets import fetch lfw people 
import matplotlib.pyplot as plt 


1 
3 
4 
5 lfw people-fetch lfw pecple(min faces per person- 70, resize- 0.4) 
6 print(lfw pegple.target names) 
7 X-lfw people.data 

8 y-lfw people.target 

9 

10 m, h, w-lfw pecple.images.shape 

11 plt.imshow( 0].reshape(h, w)) 

12 plt.show() 


图 6.22 获取 面部 数据 


基于 这 一 数据 集 ,请 对 每 一 位 政治 家 完成 如 下 任务 : 给 定 一 张 图 片 ,预测 图 片 中 的 人 物 

6.10 支持 向 量 机 与 回归 问题 。 

本 章 中 介绍 的 软 间隔 支持 向 量 机 算法 是 分 类 问题 算法 。 然 而 ,也 可 以 将 其 拓展 到 回归 
问题 中 。 在 一 个 回归 问题 中 , 设 SS A yo) P yP G Ly 09 ) 29 m 条 训练 数 
据 。 回 归 问 题 的 支持 向 量 机 模型 假设 为 线性 模型 lw (x) 一 (w:x) 十 0, 任 务 是 计算 如 下 问题 
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的 最 优 解 w* bt. 
in Iwi 十 C>) (E+) 
wen 2 ES 


约束 : (wx) 十 0 一 y9 £t. i—1.2.,-.m 
y? —O,x?)—bs; 9, i-1,2,"*,m 
& Z0, i-—1,2,-,m 


€6. 70) 


5:0. i= 0G,2,.m 
(1) 请 描述 式 (6.70) 中 优化 问题 的 对 偶 问题 ,并 设计 求解 对 偶 问题 的 坐标 下 降 算法 。 
(2) 请 设计 直接 优化 式 (6. 70) 的 梯度 下 降 算法 。 
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du 决 R NW 


本 章 介 绍 决策 树 及 其 衍生 算法 。 决 策 是 人 们 从 事 各 项 活动 时 普遍 存在 的 一 种 择优 手 
段 。 在 实际 生活 中 ,每 个 人 几乎 每 时 每 刻 都 在 进行 决策 。 决 策 树 是 直观 表达 决策 问题 的 一 
种 树 状 图 。 人 们 常常 有 意识 或 无 意识 地 用 这 种 树 状 结构 进行 决策 。 例 如 ,对 明天 做 什么 进 
行 决策 : 要 加 班 完成 工作 ,还 是 去 打 篮 球 , 或 者 看 电影 。 决 策 首先 取决 于 今天 能 否 顺利 地 完 
成 工作 。 如 果 今 天 不 能 完成 工作 , 则 选择 加 班 完成 工作 。 如 果 今 天 顺利 地 完成 了 工作 , 接 下 
来 就 要 视 明 天 的 天 气 情 况 而 定 : 如 果 下 雨 , 则 选择 看 电影 ;如 果 不 下 雨 , 选 择 打 篮 球 。 

上 述 例子 的 决策 树 中 只 有 两 个 特征 : 工作 是 否 完成 以 及 明天 天 气 的 晴雨 。 然 而 ,在 许 
多 大 型 的 机 器 学 习 问题 中 ,往往 会 涉及 众多 特征 。 面 对 如 此 多 的 特征 ,如 何 选择 与 决策 效果 
最 相关 的 特征 ? 应 当 用 什么 样 的 数据 结构 来 表示 决策 树 模型 ? 这 是 本 章 将 要 回答 的 基本 
问题 。 

本 章 7. 1 节 介绍 决策 树 基 本 概念 ,包括 决策 树 适 用 场景 ,基本 模型 假设 以 及 目标 函数 。 
7.2 TRI 7.3 节 介 绍 CART 算法 及 其 实现 和 应 用 。 从 计算 复杂 性 理论 的 角度 可 以 证 明 , 寻 
找 最 优 决策 树 是 一 个 NP 难 的 问题 。 所 以 ,CART 算法 是 一 个 采用 贪心 策略 的 近似 算法 。 
尽管 CART 算法 是 一 个 近似 算法 , 它 在 实际 应 用 中 的 效果 仍然 是 十 分 理想 的 。 随 后 ,引入 
集成 算法 的 概念 。7.4 节 与 7. 5 节 分 别 介绍 随机 森林 算法 与 梯度 提升 决策 树 回归 算法 这 两 
类 经 典 的 集成 算法 模型 。 


7.1 决策 树 的 基本 概念 


在 第 3 章 介 绍 了 线性 回归 算法 , 它 是 求解 线性 回归 问题 的 重要 算法 。 当 标签 与 特征 之 
间 旦 现 线性 关系 时 ,线性 回归 算法 是 拟 合 标签 与 特征 之 间 线 性 关系 的 最 合适 的 算法 。 在 有 
些 情况 下 ,即使 标签 与 特征 之 间 的 关系 是 非 线 性 的 ,也 可 以 对 数据 做 特征 变换 后 用 线性 回归 
算法 求解 。 例 如 ,多 项 式 回归 算法 就 是 一 个 例子 。 然 而 , 线性 回归 算法 并 不 是 解决 所 有 回归 


问题 的 万 能 钥匙 。 当 标签 分 布 是 非 连续 型 分 布 时 ,线性 回归 算法 就 无 能 为 力 了 。 
例 7.1 考察 如 下 的 回归 问题 : 样本 空间 X — [一 1,1]S R 对 任 一 样本 特征 x, 相应 
的 标签 y 服从 正 态 分 布 D, = N(f(z),1)。 其 中 , 正 态 分 布 的 期 望 是 以 下 分 段 函数 : 


= se 
ra=] 1, 0c r«0.5 
0. r0.5 
取 上 述 分 布 的 50 个 数据 采样 作为 训练 数据 ,训练 数据 的 分 布 如 图 7. 1(a) 所 示 。 对 此 训 
练 数据 应 用 线性 回归 算法 进行 拟 合 ,求解 得 出 的 直线 如 图 7. 1(b) 所 示 。 从 图 7. 1(b) 可 以 看 
到 ,对 此 问题 用 线性 回归 算法 拟 合 的 效果 并 不 理想 。 


-lOle St te) Lag 


A5 -15 1 —- 
—1.00-0.75 -0.50-0.25 0.00 0.25 0.50 0.75 1.00 —1.00-0.75 -0.50-0.25 0.00 0.25 0.50 0.75 1.00 
x x 
(a) (b) 
图 7.1 例 7.1 的 数据 采样 及 线性 回归 算法 拟 合 效果 


虽然 例 7. 1 只 是 一 个 简单 的 例子 ,但 是 它 揭示 出 线性 回归 算法 的 一 个 应 用 局 限 性 。 线 
性 回归 的 模型 假设 决定 了 模型 预测 必须 是 特征 的 连续 函数 。 在 标签 期 望 不 是 特征 的 连续 函 
数 的 情况 下 ,线性 回归 算法 就 无 法 获得 数据 之 间 关 系 的 良好 拟 合 。 而 这 类 情形 恰 给 决策 树 
算法 提供 了 用 武之 地 。 

简 而 言 之 ,决策 树 模型 按照 样本 特征 将 样本 空间 分 成 一 些 局 部 区 域 ,并 对 每 一 个 区 域 指 
定 一 个 统一 的 标签 预测 。 任 给 一 个 数据 样本 ,决策 树 将 根据 此 样本 的 特征 判断 它 所 属 的 区 
域 ,并 将 该 区 域 的 指定 标签 预测 值 作为 对 这 个 数据 样本 的 标签 预测 。 

决策 树 模 型 采用 二 又 树 数据 结构 。 在 具体 描述 决策 树 模 型 之 前 , 先 简 要 地 回顾 二 叉 树 
数据 结构 的 概念 。 在 一 棵 二 叉 树 中 ,一 个 节点 的 类 型 或 者 是 叶 节 点 ,或 者 是 中 间 节 点 ,二 者 
必 居 其 一 。 每 一 个 中 间 节 点 都 含有 指向 它 的 左 儿 子 节 点 与 右 儿 子 节点 的 指针 。 而 一 个 叶 节 
点 则 既 没 有 左 儿子 节点 ,也 没有 右 儿子 节点 。 给 定 二 叉 树 的 根 节点 ,可 以 通过 每 个 节点 中 指 
向 其 儿子 节点 的 指针 递归 地 遍历 整 棵 二 叉 树 。 由 此 可 见 , 一 棵 二 叉 树 可 以 被 它 的 根 节点 唯 
一 地 表示 。 图 7. 2 是 二 又 树 结构 的 直观 表示 。 

在 决策 树 中 ,每 个 中 间 节 点 用 于 存储 一 个 特征 下 标 j 以 及 一 个 阅 值 9。 每 个 叶 节 点 存储 
一 个 指定 的 预测 值 p。 给 定 一 个 数据 样本 ,并 设 x — Gn ensem ens ) 为 样本 的 特征 组 。 决 策 
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中 间 节 点 中 间 节 点 
TUE 右 儿 子 Fá 
中 间 节 点 | | 中 间 节 点 中 间 节 点 | | 中 间 节 点 


二 AT OX rE 


叶 节 点 | | 叶 节点 | | 叶 节点 | | 叶 节 点 叶 节点 | | 叶 节 点 
图 7.2 ”二叉树 结构 


树 从 根 节点 开始 向 下 搜索 。 在 每 一 个 中 间 节 点 处 , 设 该 节点 中 存储 的 特征 下 标 为 ;, 阔 值 为 
0, WR v, 0, 则 进入 以 该 节点 的 左 儿 子 节点 为 根 的 左 子 树 ; 否 则 进入 以 该 节点 的 右 儿 子 节 
点 为 根 的 右 子 树 ( 见 图 7. 3(a))。 按 此 方法 不 断 向 下 移动 搜索 ,直至 到 达 决 策 树 的 一 个 叶 节 
点 。 决 策 树 模型 用 该 叶 节 点 中 存储 的 预测 值 p 作为 模型 输出 ( 见 图 7. 3(b))。 


根 节点 
中 间 节 点 中 间 节 点 
THE 
mo 中 间 节 点 
x&60 x0 
叶 节 点 
左 儿 子 节 点 | [ 右 儿 子 节点 预测 值 p 


(a) (b) 
图 7.3 决策 树 及 搜索 步骤 


图 7.4 是 上 述 过 程 的 精确 描述 。Node 是 节点 数据 结构 。 在 一 个 节点 中 可 以 存储 特征 
下 标 、 阔 值 . 标 签 预测 值 以 及 左右 儿子 节点 指针 等 信息 。 在 一 个 决策 树 模型 中 ,可 以 对 决策 
树 的 任意 子 树 递 归 地 计算 给 定 样本 的 标签 预测 。 


决策 树 节点 数据 结构 
Node: 
j: 特征 下 标 
0: Bi (ft 
p: 标签 预测 值 
left: 左 儿子 节点 
right: 右 儿 子 节点 


图 7.4 决策 树 模型 
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决策 树 模型 的 递归 算法 
T(node.z): 


return node. p 
else: 

j — node. j 

if zj < node. 0: 


else: 


决策 树 模型 
h(x)= T(root,x) 


if node. left= NULL and node. right= NULL: 


return T ( node. left,x ) 


return T ( node. right, x) 


具体 来 说 , 设 h 是 一 个 决策 树 模型 。 其 决策 树 工 的 根 节点 是 root。 图 7. 4 


图 7.4 ( 续 ) 
中 的 函数 


T(node,z) 递 归 地 计算 决策 树 T 的 以 node 为 根 节点 的 子 树 中 样本 zx 的 标签 预测 值 。 首 先 ， 
算法 判断 node 是 否 为 一 个 叶 节点 , 即 ,节点 node 是 否 既 无 左 儿子 节点 也 无 右 儿子 节点 。 如 
果 node 是 叶 节 点 , 则 返回 该 节点 中 存储 的 标签 预测 值 ;否则 ,根据 特征 下 标 、 阐 值 及 样本 特 
征 x 的 值 来 决定 对 左 子 树 或 右 子 树 做 递归 搜索 。 最 后 ,定义 (x) 二 T(root,x), 即 ,将 从 决 
策 树 工 的 根 节点 root 开始 搜索 的 结果 作为 样本 x 的 标签 预测 。 

图 7. 1 说 明 , 当 标签 期 望 不 是 特征 的 连续 函数 时 ,线性 回归 算法 不 能 很 好 地 拟 合 特征 和 
标签 的 关系 。 可 以 采用 决策 树 模型 对 例 7. 1 的 数据 进行 拟 合 。 图 7. 5(a) 是 基于 图 7. 1(a) 
的 数据 构建 的 一 棵 决策 树 。 图 7. 5(b) 展 示 出 用 该 决策 树 模型 拟 合 的 效果 。 对 比 图 7. 1(b)， 
可 以 看 到 ,对 于 这 个 具体 的 回归 问题 例子 而 言 ,决策 树 模型 优 于 线性 回归 模型 。 


lé] (& -0.005 


A Ness 


预测 值 -1 国 值 0.47 


"a Ner 


预测 值 1.001 预测 值 0.008 


-L5 
—1.00 -0.75 —0.50—0.25 0.00 0.25 0.50 0.75 1.00 
ES 


图 7.5 例 7.1 问 题 的 决策 树 模型 及 其 拟 合 效果 


在 回归 问题 中 ,决策 树 回归 算法 是 一 个 以 决策 树 模型 为 模型 假设 , 均 方 误差 为 目标 函数 


的 经 验 损失 最 小 化 算法 , 见 图 7. 6。 
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决策 树 回归 算法 
输入 : m 条 训练 数据 S= {C(x ry), AP 2 ) Ga ye )) 
模型 假设 : Hue = (h (x) :为 决策 树 模型 } 


min 工 > (A(x? )— y? )* 
m i=l 


AEH ree 


图 7.6 决策 树 回归 算法 描述 


在 一 棵 决策 树 中 ,从 根 节点 到 每 一 个 叶 节 点 都 有 一 条 唯一 的 路 径 。 将 路 径 上 的 边 数 定 
义 为 路 径 的 长 度 。 决 策 树 中 从 根 节点 出 发 的 最 大 路 径 长 度 称 为 该 决策 树 的 深度 。 例 如 ,在 
图 7.5(a) 中 ,从 根 节点 到 3 个 叶 节点 的 路 径 长 度 从 左 到 右 分 别 是 1.2、2。 因 此 ,该 决策 树 的 
深度 是 2 。 

如 果 对 深度 不 做 限制 ,决策 树 可 以 完美 地 拟 合 任何 给 定 的 训练 数据 。 例 如 ,在 例 7. 1 
中 ,如 果 用 一 棵 深度 为 8 的 决策 树 来 拟 合 数据 ,将 得 到 如 图 7. 7 所 示 的 拟 合 结果 。 从 图 中 可 
见 ,这 是 典型 的 过 度 拟 合 。 


-1.5 
-1.00 -0.75 -0.50 -0.25 0.00 025 0.50 0.75 1.00 
X 
图 7.7 例 7.1 问题 的 过 度 拟 合 


为 了 防止 出 现 过 度 拟 合 ,决策 树 回归 算法 必须 对 决策 树 模型 的 深度 做 出 限制 。 与 线性 
回归 算法 不 同 ,决策 树 回归 算法 无 法 进行 正则 化 。 所 以 ,深度 限制 是 决策 树 回 归 算 法 避免 过 
度 拟 合 的 主要 的 手段 。 其 算法 如 图 7. 8 所 示 。 


决策 树 回 归 算 法 ( 带 深度 限制 ) 
输入 :到 条 训练 数据 S 一 {(xz py) AP y ) ee Q0 Ly] 
模型 假设 : Hie = {h(x) :h 为 深度 不 超过 d 的 决策 树 } 


sent. 


MET T 
eud. M i2. 


图 7.8 限制 深度 的 决策 树 回归 算法 描述 
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例 7.2 假设 样本 空间 X 二 [0,2x)。 对 任意 特征 x € X. 标签 y RAES D, = 
N(sinz,0.1)。 取 xz 和 y 的 100 条 数据 采样 作为 训练 数据 。 训 练 数据 的 分 布 如 图 7.9(a) 所 示 。 


图 7.9 训练 数据 分 布 及 决策 树 模型 拟 合 


图 7.9(b) 展 示 的 是 深度 为 0 的 决策 树 模 型 。 它 只 用 一 个 常数 来 拟 合 训练 数据 。 图 7.9 
(c) 一 (了 展示 的 分 别 是 深度 为 1 一 4 的 决策 树 模型 。 从 图 7. 9 可 以 看 到 , 随 着 深度 的 增加 , 模 
型 的 复杂 度 越 来 越 高 , 且 其 拟 合 的 效果 也 逐渐 增强 。 
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决策 树 模型 不 仅 可 以 应 用 于 回归 问题 ,还 可 以 应 用 于 分 类 问题 。 在 第 5 章 中 介绍 的 
Logistic 回归 算法 是 处 理 二 元 分 类 问题 的 常用 算法 。Softmax 回归 算法 则 是 Logistic 回归 
算法 在 一 般 的 人 元 分 类 问题 中 的 推广 。 与 线性 回归 算法 类 似 ,Logistic 回归 算法 与 Softmax 
回归 算法 也 不 是 解决 分 类 问题 的 万 能 钥匙 。 以 Logistic 回归 算法 为 例 , 它 的 模型 假设 决定 
了 它 在 正 采 样 与 负 采 样 可 以 用 线性 边界 分 离 时 效果 最 佳 。 尽 管 可 以 用 特征 变换 来 处 理 非 线 
性 边界 的 情形 ,用 Logistic 回归 算法 的 前 提 依 然 是 正 采样 与 负 采 样 的 分 布 区 域 为 连续 区 域 ， 
否则 用 Logistic 回归 算法 来 预测 的 效果 就 不 理想 。 

例 7.3 变色 车 尾 识别 问题 的 预测 任务 是 ,根据 花 昔 的 长 与 宽 预 测 给 定 营 尾 花 是 否 为 变 
ESE. f 7. 10(a) 是 这 个 问题 的 训练 数据 。 变 色 昔 尾 为 正 采 样 ,否则 为 负 采 样 。 从 
图 7. 10(a) 中 可 以 看 到 , 负 采 样 的 分 布 并 不 是 一 个 连续 区 域 。 对 此 训练 数据 采用 Logistic 回 
归 算 法 。 结 果 显 示 Logistic 回归 模型 对 负 采 样 的 预测 准确 率 非常 低 ( 见 图 7. 10(b))。 


38. EE: DEG 
25 2o [Arrese 。 非 变色 高 尾 
2.0 meti i 

B 

ar 1.5 

Es 


1.0 
0.5 


90 3 3 


5 6 7 


4 
TU K 
(a) (b) 
图 7.10 训练 数据 正 负 采 样 分 布 及 Logistic 回归 拟 合 效果 


当 正 采样 或 负 采 样 的 分 布 不 是 一 个 整体 的 连续 区 域 , 而 是 由 多 个 局 部 区 域 构成 时 ,决策 
树 模型 是 较 Logistic 回归 模型 更 加 适用 的 模型 。 从 图 7. 4 中 对 决策 树 模 型 的 描述 容易 看 
出 , 它 也 可 以 用 于 解决 分 类 问题 ,只 需 将 图 7.4 中 的 决策 树 节点 数据 结构 中 的 预测 值 p 设 为 
概率 向 量 即 可 。 

在 一 个 分 类 问题 中 ,决策 树 分 类 算法 是 一 个 以 决策 树 模型 为 模型 假设 、 以 交叉 炉 为 目标 
函数 的 经 验 损失 最 小 化 算法 。 图 7. 11 是 针对 分 类 问题 概率 预测 任务 的 决策 树 分 类 算法 。 
该 算法 采用 的 是 0-1 向 量 标签 形式 。 决 策 树 模型 的 输出 是 一 个 维 概率 向 量 。 向 量 的 第 1 


决策 树 分 类 算法 ( 带 深度 限制 ) 

任务 :元 分 类 问题 的 概率 预测 任务 

输入 : m 条 训练 数据 S — (Ge Ly ) (e? y 9 ) ee Qm ym) 
模型 假设 : Hie = {h(x) :h 为 深度 不 超过 4d 的 决策 树 } 


min 3/2 log A (x? )) 
"MET 


图 7.11 针对 分 类 问题 概率 预测 任务 的 决策 树 分 类 算法 
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位 表示 样本 属于 类 别 c 的 概率 。 根 据 定义 5. 14, 决 策 树 模型 /的 交叉 焙 为 
-i3ge ,log h (x? )) (7.1) 


决策 树 分 类 算法 的 目标 函数 就 是 式 (7. D P HIEU o 

图 7. 12 是 基于 图 7. 10(a) 中 的 数据 构建 的 一 个 概率 预测 问题 的 决策 树 模型 。 其 中 , 特 
征 zx。 是 花 莹 长 ,特征 zi 是 花 莹 宽 。 对 应 于 非 变色 高 尾 样本 的 标签 是 (1,0)。 对 应 于 变色 高 
尾 样 本 的 标签 是 (0,1)。 图 7. 12 中 的 决策 树 模 型 可 以 用 文字 描述 如 下 : 给 定 一 株 昔 尾 花 样 
本 ,如 果 花 莹 长 不 超过 1. 9, 则 一 定 不 是 变色 音 尾 。 在 花 葛 长 大 于 1. 9 的 前 提 下 ,如 果 花 昔 宽 
大 于 1.7, 则 一 定 不 是 变色 昔 尾 ;如 果 花 昔 宽 不 超过 1.7, 则 又 分 为 两 种 情况 : 如 果 花 葛 长 不 
超过 5.2, 则 一 定 不 是 变色 萝 尾 ,否则 可 以 94% 的 概率 确定 它 是 变色 萝 尾 。 
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图 7.12 变色 营 尾 识别 问题 的 决策 树 


针对 类 别 预 测 任务 形式 ,与 Logistic 回归 算法 和 Softmax 回归 算法 类 似 , 决 策 树 算 法 先 
完成 概率 预测 任务 ,然后 通过 最 大 概率 分 类 函数 做 出 对 类 别 的 预测 。 例 如 ,图 7. 13 是 对 
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图 7.13 变色 葛 尾 预测 的 决策 树 模型 
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图 7. 12 中 的 模型 用 最 大 概率 分 类 函数 得 到 的 例 7. 3 中 数据 的 类 别 预测 结果 。 与 图 7. 10 (b) 
的 预测 结果 比较 ,决策 树 模 型 在 变色 高 尾 识别 问题 中 有 明显 的 优势 。 

从 这 个 例子 可 看 到 , 当 训 练 数据 的 分 类 边界 是 非 线 性 的 , 且 能 够 用 矩形 来 划分 特征 空间 
时 ,决策 树 是 求解 分 类 问题 的 一 个 合适 的 算法 。 


7.2. 决策 树 优化 算法 


本 节 介 绍 决策 树 的 优化 算法 。 尽 管 都 是 经 验 损失 最 小 化 算法 ,决策 树 算法 与 线性 回归 
算法 仍然 是 不 同 的 , 它 不 是 一 个 凸 优化 算法 。 在 算法 复杂 性 理论 中 已 经 证 明 , 计 算 最 优 决 策 
树 的 问题 是 一 个 NP 完全 (NP-complete) 的 问题 。 目 前 没有 任何 已 知 的 高 效 算法 能 够 精确 
地 计算 出 最 优 决 策 树 。 因 而 ,只 能 寻求 在 可 用 资源 有 限 的 情况 下 能 最 大 程度 地 近似 最 优 解 
的 高 效 近似 算法 。 本 节 将 要 介绍 的 CART. 算法 就 是 一 个 这 样 的 近似 算法 。 

CART 是 英文 Classification And Regression Trees 的 首 字母 缩写 , 意 为 分 类 与 回归 树 。 
它 既 可 以 优化 决策 树 回 归 , 也 可 以 优化 决策 树 分 类 ,而 且 可 以 用 统一 的 方式 来 实现 。 


7.2.1 决策 树 回 归 问 题 的 CART 算法 


决策 树 回归 算法 如 图 7. 8 所 示 。 针 对 图 7. 8 中 的 优化 问题 ,CART 算法 生成 一 棵 指定 
深度 的 决策 树 , 并 用 贪心 策略 来 搜索 近似 最 优 均 方 误差 。 以 下 通过 一 些 简 单 情 形 来 展示 
CART 算法 的 基本 思想 。 

给 定 训练 数据 S. 首先 ,考虑 模型 假设 为 Hus 时 图 7. 8 中 的 优化 问题 , 即 , 如 何 生 成 一 棵 
深度 为 0 的 决策 树 来 优化 均 方 误差 。 深 度 为 0 的 决策 树 只 有 一 个 节点 , 它 既 是 根 节点 ,也 是 
叶 节 点 。 用 hs 表示 叶 节 点 预测 值 为 p 的 深度 为 0 的 决策 树 模型 。 用 MSE (p) Am A, TES 
上 的 均 方 误差 , 则 有 


MSE(p)= T8124, 7 p? (1.2) 
要 计算 式 (7. 2) 的 最 小 可 能 值 ,只 需 对 p 求 导 并 计算 使 得 导数 为 0 的 p。 容易 算出 
p= I2 (7.3) 
此 即 S 中 数据 标签 的 平均 值 。 
为 了 简化 记号 ,将 S 中 数据 标签 的 平均 值 记 为 
Avg(S) 一 TST.. 2» C1. 4) 
将 S 中 数据 标签 的 方差 记 为 四 
Var(S)— T2 (Avg(S)— y) (1.5) 


基于 上 述 记 号 , 式 (7.3) 可 以 表示 为 p 二 Avg(S)。 此 时 , 式 (7.2) 就 与 式 (7.5) 相 同 。 由 
此 可 以 得 到 结论 : 当 模型 假设 为 His 时 .图 7. 8 中 的 优化 问题 的 最 优 解 为 hss 。 训练 这 一 
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模型 需 耗 时 O(n). FEP, m 为 训练 数据 的 个 数 。 

再 来 考察 当 模型 假设 为 Hi 时 图 7. 8 中 的 均 方 误差 优化 问题 , 即 , 如 何 生成 一 棵 深度 为 
1 的 决策 树 来 优化 均 方 误差 。 深 度 为 1 的 决策 树 中 有 一 个 根 节点 和 两 个 叶 节点 。 因 此 ,每 一 
棵 这 样 的 决策 树 可 以 由 4 个 参数 决定 : 根 节点 中 的 特征 j、 阔 值 以 及 两 个 叶 节 点 中 的 预测 
值 p FI pro H Jua, s 表示 这 个 决策 树 模型 ,用 MSE 40. pu pr) RE iaa, 在 S 上 的 
均 方 误差 , 则 图 7. 8 中 的 优化 问题 的 目标 函数 为 


min MSE(j.0. pi. pa) (0.6) 
di bp :PR 
对 给 定 的 特征 j 5j IR O. 定义 
MSE(j.0)— tun MSE(j ,0, pL ,pr) nD 
L'PR 
则 式 (7. 6) 又 可 以 表达 为 
min MSE(;.0) (7.8) 


取 定 特征 j 5 HBO.S 被 分 成 了 两 部 分 : SL = (Gy ES:z <0) H Sr = (Gy € 
Six; 二 外 。 因 此 ,可 以 将 MSEG «0. pi» pr) 表示 为 
MSE (j ,0, pu» px) ie $3 4s—4)54- A (y ro] (7.9) 


"WESL Gv) ESR 


对 式 (7.9) 中 的 pi 与 pr 分 别 求 偏 导数 。 求 解 出 使 偏 导数 为 0 的 p, 与 pr 分 别 为 


Pu = Av) Tg Dy Pe AST qr 22» — (10 


(x ES, (xy) ESR 


这 就 是 使 式 (7. 9) 达 到 最 小 值 的 pi 与 pro HENERO. 9) 就 得 到 


|S | [Ss] 
Is] Is] 


基于 上 述 分 析 ,可 以 描述 优化 算法 如 下 : A REBRERS TRAE j REO, 并 对 每 一 组 j 
和 0. 用 式 (7. 11) 计 算 MSE( ,0)。 选 出 MSE( ,0) 值 最 小 的 一 组 ) 和 0, 生成 根 节点 。 再 用 
式 (7. 10) 来 计算 两 个 叶 节点 的 预测 值 , 如 图 7. 14 所 示 。 


MSE(j.0)— 


Var(S, )+ 


Var(Sn) 62.135 


s 
"A 
E x20 
S, SR 
户 =Avg(SU) Pr—Avg(S) 


7.14 深度 为 1 的 决策 树 


设 |S|=m, 任 一 特征 j 最 多 有 m 种 不 同 的 取 值 。 因 此 , 阅 值 9 也 最 多 有 m 种 不 同 的 取 
值 。 在 上 述 优 化 算法 中 ,对 每 一 个 取 定 的 特征 7 REI O0. 计算 MSE(j,0) TEER O(m). 
如 果 特 征 数 为 n, 则 算法 的 计算 时 间 复 杂 度 是 O(nm? ) 。 

以 上 的 优化 算法 是 针对 模型 假设 分 别 为 Hi 与 Hi 的 决策 树 来 设计 的 。CART 算法 
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是 上 述 两 个 模型 假设 下 的 决策 树 算法 在 深度 d — 1 时 的 推广 。 算 法 的 描述 见 图 7. 15。 在 
图 7. 15 的 算法 中 ,GenerateTree(S,d) 递 归 地 生成 基于 训练 数据 S 的 深度 为 4 的 决策 树 ,其 
返回 值 是 该 决策 树 的 根 节点 。 算 法 描述 中 用 到 了 图 7. 4 中 的 决策 树 节点 数据 结构 。 


决策 树 回归 问题 的 CART 算法 
GenerateTree( S,d) : 
root— new node 
if d—0 or |S| 2: 
root. p= Avg(S) 
else: 
for j71,2,*.ni 
for ĝin (z;:x ES}: 
SLG — (G3) ES: x; <0} 
Sr (j40) ={ (x,y) ES:x;>0} 
MsEc 4) - S01 


Var (S. (j.0) ) + Var (Sr (j+0)) 


LSCG) | 
EE 
j',0/ —argmin;, MSE( j 0) 

root.j—j* 

root.ó—0* 

root. left— GenerateTree (S; (j^ .0* ).d — 1) 

root, right— GenerateTree (Sg (j* .0* ).d — 1) 


return root 


图 7.15 决策 树 回 归 问 题 的 CART 算法 


该 算法 首先 生成 一 个 节点 root. 作为 决策 树 的 根 节点 。 如 果 指 定 的 深度 值 为 0, 则 
CART 算法 就 是 基于 Hi. 模型 假设 的 经 验 误差 优化 算法 。 此 时 ,CART 算法 将 预测 值 
root. p WX Avg(S). 

当 指 定 深度 — 0 时 ,算法 对 S 中 的 数据 进行 一 次 划分 ,以 降低 均 方 误差 。 这 人 恰 是 基于 
Hi. 模型 假设 的 经 验 误差 优化 算法 : 遍历 所 有 的 特征 /及 阔 值 0, 对 每 一 组 7 和 0 都 用 式 
C. 11) 来 计算 MSE(j,0) 。 使 MSE (j .0) 值 达到 最 小 的 一 组 六 和 0 存储 于 root. j 和 root. 0。 然 
后 ,递归 地 生成 基于 训练 数据 SL (7 0) 的 深度 为 & 一 1 的 决策 树 和 基于 训练 数据 
Sg 010) 的 深度 为 & 一 1 的 决策 树 , 并 将 它们 的 根 节点 分 别 作为 root 的 左 儿子 节点 与 右 儿 
子 节点 。 最 后 ,返回 root。 

图 7.15 中 的 算法 在 每 一 次 划分 数据 时 都 只 考虑 将 当前 的 数据 分 为 两 部 分 的 局 部 最 优 
分 法 ,而 并 不 考虑 当前 虽然 是 次 优 的 ,但 在 未 来 的 递归 划分 中 可 能 是 全 局 最 优 的 划分 。 由 此 
可 见 ,CART 算法 是 一 个 贪心 算法 。 


7.2.2. 决策 树 分 类 问题 的 CART 算法 
决策 树 用 于 求解 分 类 问题 时 ,相应 的 CART 算法 与 决策 树 回 归 算 法 有 完全 相同 的 思想 
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和 结构 ,唯一 的 区 别 在 于 划分 数据 的 准则 不 同 。 以 下 依然 以 模型 假设 Hus 与 Hus 为 例 介 绍 
决策 树 分 类 问题 的 CART 算法 。 

首先 将 记号 Avg(S) 拓 展 到 分 类 问题 中 ,并 且 引 入 灼 概念 。 在 一 个 4 元 分 类 问题 中 ， 
每 条 训练 数据 的 标签 y € (0.135 是 一 个 HE 0-1 向 量 。 给 定 训练 数据 S, 依然 用 式 (7.4) 的 
方式 定义 S 中 数据 的 标签 平均 值 Avg (S) 。 与 回归 问题 不 同 的 是 ,此 时 Avg(S) 是 一 个 k 维 
向 量 , 而 不 是 一 个 实数 。Avg(S) 的 每 一 个 分 量 都 在 [0,1] 区 间 取 值 ,表示 S 中 对 应 的 这 一 
类 出 现 的 频率 , 即 


Avg(S); = i=1,2,°,k (7.12) 


Deped 
— Isl c 


定义 S IP d 
Entropy(S) —— (Avg(S).log AvgCS)) (7.132 
其 中 ,log AvgCS) — (log AvgC S); log Avg(S); .*.log AvgCS), )。 
考察 模型 假设 为 Hu 时 图 7. 11 中 的 决策 树 分 类 优化 问题 。 用 h 表示 叶 节点 预测 值 为 
的 深度 为 0 的 决策 树 模型 。 其 中 p 是 每 一 个 分 量 都 在 [0,1] 区 间 取 值 的 & 维 向 量 。 它 表 
示 给 定 特征 的 样本 属于 每 一 个 类 别 的 概率 预测 值 。 目 标 函数 是 交叉 炉 : 


2)» 
log p; * EH 


k k 
CE(p) =S] 2j 3) ylog 轴 = 一 >) 


(aDES i=l i=l 


根据 式 (7. 12) ,有 


k 
CE(p)=— J) log p; * Avg(S)， (7.14) 
i=l 


对 式 (7. 14) 求 其 最 优 解 p; (i 二 1,2,…,k) 的 问题 ,实际 上 是 一 个 带 约束 D p; 一 1 一 0 的 
i-l 
优化 问题 。 此 问题 的 拉 格 朗 日 函数 为 


k k 
L(p::à)=— 2) (log p; aoa > pi — 1) 


iei 
根据 KKT 条 件 , 最 优 解 必须 满足 

9L(pi;.À) Avg( 

9 pi bi 


Sue. d= ipak 


因此 有 


je NEU. Ls deas 
A 
由 于 》) p; = 1, 且 S 中 标签 在 各 类 的 频率 之 和 》) Avg(S); — 1. 因而 


: E Avg( S) 
12s MAS -1 
[mm zi 


由 此 可 得 * —1,. Afi XEFERE i ME p. Avg( S); Bl. p— Avg( S) fli CE (pik lf] 
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的 概率 预测 向 量 。 将 p=Avg (SAARC. 14) ,可 以 得 到 
CE(Avg(S))-— Entropy(S) (7. 15) 
由 此 可 见 , 当 模型 假设 为 Horee 时 ,图 7.11 中 的 优化 问题 的 最 优 解 为 aswes， 且 最 优 的 交 
NEF Entropy (S) 。 训 练 这 一 模型 需 耗 时 On). 其中, m 为 训练 数据 的 个 数 。 
再 来 看 模型 假设 为 Hi. 时 图 7. 11 中 决策 树 分 类 优化 问题 。 深 度 为 1 的 决策 树 有 一 个 
根 节点 和 两 个 叶 节 点 。 与 回归 决策 树 的 思路 类 似 ,将 深度 为 1 的 分 类 决策 树 模型 表示 成 
howpr。 其 中 , pi 和 pr 都 是 k 维 向 量 。 用 CE(j,0,pi pu ) EAR hja s, (E S EHZ, 
并 且 定 义 
CE(j,0)= min CEG +0. p. + Pr) (7.16) 
因此 ,只 要 计算 出 CE( .0), 就 可 以 通过 遍历 特征 j 与 阔 值 0 来 寻找 最 优 决 策 树 。 
采取 与 回归 决策 树 类 似 的 方法 计算 CE(7,0)。 即 , 取 定 特征 7 与 阔 值 0, 将 S 分 为 两 部 
分 :S = { (x,y) € Six; x 0) 和 Sr = { (x,y) ES:zi > 0), YESE SUME CECI ,0,pL ,pr) 表 示 
为 


CEG-0- p.p) Tir p Cy.log pL) 十 25) olo pe) ] 


DES, Gs ESR 
与 式 (7. 14) 类 似 , 可 以 将 CE Qj 0. pi « pa ) 表示 为 
CE(j.0. p. pu) —— Ci.) slog pi) — Š ‘(Avg(Sr),log pr (7.17) 


同样 用 拉 格 朗 日 函数 及 KKT 条 件 计 算出 使 式 (7.17) 达 到 最 小 的 pi 与 pr 
pu = Avg(Si)* pr = Avg(Sr) (7.18) 
将 式 (7.18) 中 的 pi 与 pg 代入 式 (7.17) ,得 到 


i S S 
CE(j.0)— JS Lentropy cs. »- 1d 


遍历 所 有 可 能 的 特征 7 及 阔 值 0, 并 对 每 一 组 ) 和 0 用 式 (7. 190 TEST. CE(j,0)。 用 使 得 
CE (j.0) 达到 最 小 值 的 那 一 组 ; 和 0 生成 根 节点 。 再 用 式 (7. 18) 计 算 两 个 叶 节 点 的 预测 值 ， 
就 能 得 到 最 优 的 深度 为 1 的 决策 树 模型 。 

与 决策 树 回 归 算 法 类 似 , 模 型 假设 为 Hl 与 Hi 的 决策 树 分 类 算法 可 以 推广 到 深度 
d — 1 的 情形 。 通 过 将 图 7.15 中 的 回归 算法 的 数据 划分 准则 由 方差 改 为 炉 . 且 将 均 方 误差 
改 为 交叉 炉 , 即 可 得 到 深度 d — 1 的 决策 树 分 类 算法 。 图 7. 16 是 对 决策 树 分 类 问题 的 
CART 算法 的 详细 描述 。 


Entropy (Sg ) (7.19) 


决策 树 分 类 问题 的 CART 算法 
GenerateTree (S,d ) : 
Toot 一 new node 
ifd = 0or |S| <2: 
root. p= AvgCS) 


图 7.16 决策 树 分 类 问题 的 CART 算法 
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else: 
for j = 1,2,-.ni: 
for ĝin (z;;x ES}: 

SL (j0) = (GS y) € Siz; <0) 
SGD = (y) € Six > 0) 
CEG.0)— E —— I Entropy (S, (0) )-- lagel wien LEntropy (Sx (0) ) 

j'50; — argminjaCE (j50) 

root. j = j^ 

root. 0 = 0" 

root, left = GenerateTree(S (j* .0* ).d— 1) 

root, right = GenerateTree(Sg (j* 0" ).d — 1) 


return root 


图 7.16 (5 


7.3 CART 算法 实现 及 应 用 


比较 图 7. 15 与 图 7. 16 中 的 算法 可 以 看 出 ,决策 树 回 归 问 题 与 决策 树 分 类 问题 的 
CART 算法 的 结构 完全 相同 。 它 们 的 不 同 之 处 只 是 各 自 采 用 的 数据 划分 准则 有 所 区 别 。 决 
策 树 回归 算法 用 方差 值 来 划分 数据 ,而 决策 树 分 类 算法 则 用 交叉 焙 值 来 划分 数据 。 如 果 能 
设计 一 个 分 值 函 数 ,使 其 在 决策 树 回 归 问 题 中 表示 方差 ,而 在 决策 树 分 类 问题 中 表示 粹 , 则 
这 两 个 算法 的 实现 方式 就 完全 相同 。 基 于 这 个 思想 ,可 以 设计 一 个 统一 的 CART 算法 : 以 决 
策 树 算法 的 基 类 来 提取 图 7. 15 与 图 7. 16 中 算法 的 公共 结构 ,并 在 基 类 的 构造 函数 中 传人 指定 
的 分 值 函数 。 如 果 是 回归 问题 , 则 分 值 函 数 是 方差 ;如 果 是 分 类 问题 , 则 分 值 函 数 就 是 炉 。 


7.3.1 决策 树 CART 算法 基 类 


决策 树 节点 的 数据 结构 中 要 存储 特征 j、 阔 值 0、 叶 节点 预测 值 p 及 左右 儿子 节点 指针 。 
图 7. 17 中 的 类 Node 是 图 7.4 中 定义 的 决策 树 节点 数据 结构 的 具体 实现 。 


machine learning.lib.tree node 
1 class Node: 


3 j-Noe 

3 theta-None 
4 p-None 

5 left-None 

6 right-None 


图 7.17 决策 树 节点 数据 结构 
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图 7.18 是 决策 树 CART 算法 的 基 类 DecisionTreeBase 的 实现 。 类 中 有 4 ^. 
root,max depth,get score 和 feature sample rate, 

* root 记录 所 生成 的 决策 树 的 根 节点 ,由 根 节 点 可 唯一 地 表示 这 棵 决策 树 。 

* max depth 记录 CART 算法 中 决策 树 模型 的 深度 限制 ,由 构造 函数 指定 。 

* get score 是 分 值 函 数 的 指针 ,由 构造 函数 传 信 。 传 入 方差 则 实现 决策 树 回归 问题 的 
CART 算 法 ,传人 粹 则 实现 决策 树 分 类 问题 的 CART 算法 。 
feature sample rate 是 [0,1] 区 间 内 的 一 个 数 ,由 构造 函数 指定 。 在 每 次 划分 数据 
时 ,feature_sample_rate 使 得 算法 可 以 随机 选取 相应 比例 的 特征 进行 遍历 ,而 不 必 遍 
历 全 部 特征 。 这 个 功能 在 7. 4 节 的 随机 森林 算法 中 会 用 到 ,而 在 决策 树 算法 中 并 不 
需要 它 。 因 此 ,在 决策 树 回 归 问 题 和 分 类 问题 的 算法 中 ,都 将 feature_sample_rate 
的 默认 值 设 为 1 。 

在 图 7.18 中 ,第 56 行 的 fit 函数 是 CART 算法 的 入 口 。 在 fit 函数 中 ,调用 第 43 一 54 
行 中 定义 的 generate tree 函数 生成 一 棵 深度 不 超过 max. depth 的 决策 树 ,并 将 根 节点 存 于 
成 员 root 中 。 如 果 将 get. score 2131 Bg 7r 2€ MK «generate tree 函数 的 原型 就 是 图 7. 15 
和 图 7. 16 中 的 算法 。 

generate tree HAA 4 个 输入 参数 : Xy idx Hl d. 其 中 , XA y 分 别 是 全 体 训 练 数据 
的 特征 组 与 标签 。idx 是 一 个 下 标 集合 。generate_tree 函数 用 下 标 在 idx 中 的 训练 数据 递 
归 地 生成 一 棵 深度 不 超过 d 的 决策 树 , 并 返回 生成 的 决策 树 的 根 节点 。 第 44 行 生成 一 个 节 
点 7, 作 为 要 建立 的 决策 树 的 根 节点 。 第 45 行 判断 深度 d 是 否 等 于 0 或 当前 是 否 只 有 1 条 
训练 数据 。 如 果 是 , 则 不 再 继续 划分 数据 ,此 时 7 就 是 一 个 叶 节 点 ;然后 ,第 46 行 计算 下 标 
在 idx 中 的 训练 数据 标签 的 平均 值 ,并 将 其 作为 7 中 的 预测 值 。 如 果 不 是 ,继续 划分 数据 。 
第 A8 行 调用 第 24 一 41 行 中 的 find best split 函数 ,采用 贪心 策略 来 寻找 最 优 数据 划分 。 

在 find. best split 函数 中 ,第 28 行 调用 第 19 一 22 行 中 的 函数 get_random_features , 按 
比例 feature_sample_rate 随机 选取 一 组 特征 ,并 在 第 29 行 开始 遍历 这 些 选 出 的 特征 。 对 每 
一 个 特征 j, 在 第 30 行 对 下 标 在 idx 中 的 所 有 训练 数据 计算 出 特征 j 的 不 同 取 值 ,并 将 它们 
作为 备 选 的 阔 值 0。 第 31 行 遍历 所 有 阅 值 9。 对 每 一 组 取 定 的 7 和 09, 在 第 32 行 调用 第 10 一 
17 行 中 定义 的 split data 函数 ,将 数据 按照 特征 j 的 取 值 是 否 大 于 阅 值 9 分 成 两 部 分 ,它们 
的 下 标 分 别 在 idxl 和 idx2 中 。 第 33、34 行 中 的 判断 用 于 确保 划分 的 两 部 分 都 不 是 空 集 。 
随后 ,在 第 35 行 中 ,对 每 一 部 分 数据 用 指定 的 get. score 函数 计算 其 分 值 。 在 第 36,37 íT 
中 ,计算 出 两 部 分 的 分 值 的 加 权 和 ,并 以 此 作为 当前 划分 的 目标 函数 值 。 在 回归 算法 中 ,这 
个 目标 函数 值 正 是 式 (7. 11) 的 结果 ;在 分 类 算法 中 ,这 个 目标 函数 值 就 是 式 (7. 19) 的 结果 。 
find best split 函数 返回 所 有 可 行 划分 中 目标 函数 值 最 小 的 一 组 划分 。 

在 generate tree 函数 中 ,第 48 行 用 score 表示 最 优 划 分 的 目标 函数 值 。 第 49 行 计算 
不 做 数据 划分 时 得 到 的 目标 函数 值 current_score。 如 果 score 小 于 current_score, 则 数据 划 
分 可 以 带 来 益处 。 此 时 ,在 第 52 行 记 录 这 一 划分 的 信息 。 最 后 ,在 第 53 行 递归 地 生成 当前 
节点 的 左 儿子 节点 与 右 儿子 节点 。 它 们 分 别 对 应 于 划分 出 的 两 部 分 数据 。 
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machine learning.lib.decision tree base 
1 import numpy as np 
2 franmachine learning.lib.tree node import Node 


3 
4 class DecisionTreeBase: 
5 def init (self, max depth, get score, feature sample rate- 1.0): 
6 self.mex depth-mex depth 
7 self.get score-get score 
8 Self. feature sample rate- feature semple rate 
9 
10 def split data(self, j, theta, X, idx): 
n idxl, idi2- list), list() 
12 for i in idx: 
13 i£ X il[j]« theta: 
14 idxl.append(i) 
15 else: 
16 idx2.append(i) 
17 return idxl, idx2 
18 
19 def get. randa features (self, n): 
20 shuffled- np.random.permitation (n) 
21 size-int(self.feature sample rate* n) 
22 return shuffled :size] 
23 
24 def find best split(self, X, y, idx): 
28 m, n-X.shape 
26 best score, best j, best theta float ("inf"), - 1, float ("inf") 
21 best idxl, best idx% list(), list() 
28 selected j-self.get randm features (n) 
29 for j in selected j: 
30 thetas- set ( x[ 3] for x in X]) 
31 for theta in thetas: 


了 2 idxl, idx2- self.split data(j, theta, X, idx) 

33 if min(len(idxl), len(idx2))-- 0: 

34 continue 

35 scorel, score2- self.get score(y, idxl), self.get score(y, idx2) 
36 w-1.0* len (idx1) /len (idx) 


37 score-w* scorel+ (1- w) * score? 
38 if scorecbest score: 
39 best score, best j, best theta- score, j, theta 


图 7.18 决策 树 CART 算法 的 基 类 
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40 best idxl, best idx2-idxl, idx2 

a return best j, best theta, best idxl, best idx2, best score 

42 

43 def generate tree(self, X, y, idx, d): 

44 r-Node() 

45 if d==0 or len(idx)-- 1: 

46 r.penp.average (YL idx], axis- 0) 

47 retum r 

48 j, theta, idxl, idx2, score- self.find best split (X, y, idx) 

49 current score- self.get score(y, idx) 

50 if score»- current score: 

51 retum r 

E r.j, r.theta- j, theta 

53 r.left, r.right- self.generate tree(X, y, idxl, d- 1), self.generate tree 
(X, y, ido, d-1) 

54 retum r 

5 

56 œf fit(self, X, y): 

57 Self.root= self.generate tree(X, y, rang (len (X)), self.max depth) 

58 


59 defget prediction(self, r, x): 
if r.left-- None and r.right == None: 
return r.p 
if x r.j]«-r.theta: 
return self.get prediction(r.left, x) 
else: 
retum self.get prediction(r.right, x) 


def predict (self, X): 
y-listo 
fori in range(len(X)): 
y-append(self.get prediction (self.root, X i])) 
return np.array (y) 


828828888 


azg 


图 7.18 (4 


在 算法 的 最 后 定义 了 predict 函数 ,并 对 每 一 条 测试 数据 调用 第 59 一 65 行 中 的 get_ 
prediction 函数 来 完成 预测 。 对 每 一 条 数据 ,get_ prediction 是 用 递归 方式 来 实现 的 。 即 , 根 
据 特 征 的 取 值 从 根 节点 开始 向 下 移动 ,直至 到 达 一 个 叶 节 点 ,并 返回 该 叶 节点 的 预测 值 作为 
对 该 数据 的 预测 。 

定义 了 决策 树 CART 算法 的 基 类 后 ,决策 树 回归 问题 与 分 类 问题 的 CART 算法 只 需 继 
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承 基 类 并 指定 相应 的 get. score 分 值 函 数 即 可 。 
7.3.2 决策 树 回 归 问 题 的 CART 算法 的 实现 及 应 用 


基于 决策 树 CART 算法 的 基 类 ,可 以 具体 描述 决策 树 回 归 问 题 的 CART 算法 的 实现 。 
在 图 7. 19 所 示 的 决策 树 回归 问题 的 CART 算法 中 ,第 4 一 6 行 实现 的 是 对 下 标 属 于 集合 idx 
的 数据 计算 标签 的 方差 。 在 第 8 行 定义 决策 树 回 归 算 法 DecisionTreeRegressor, 它 继承 了 
图 7. 18 中 的 基 类 。 第 12 行 传人 feature_sample_rate, 其 默认 值 为 1。 第 13 行将 get. var f£ 
入 基 类 的 构造 函数 。 


3 
4 defget ver(y, idx): 

5 y avg- np.average (y. idx]) * np.ones (len (idix) ) 

6 retum np.linalg.nom(y avg - y idx], 2) ** 2/len(idx) 
7 

8 

9 


class DecisicnTreeRegressor (Deci sionTreeBase) : 
def init — (self, max depth- 0, feature sample rate-1.0): 
10 super(. init ( 
u mex depth- max depth, 
12 feature sample rate- feature sample rate, 
13 get score-get var) 


图 7.19 基于 CART 算法 基 类 的 决策 树 回归 算法 


例 7.4 共享 单车 问题 ?。 

共享 单车 系统 为 人 们 的 出 行 提供 了 极 大 的 便利 。 人 们 可 以 从 一 个 地 点 租车 ,并 于 另 一 
地 点 还 车 。 一 个 共享 单车 系统 每 天 都 会 产生 大 量 的 租车 数据 。 数 据 中 包括 出 行 时 间 、 出 发 
地 ,目的 地 等 信息 。 共 享 单车 问题 的 任务 是 根据 租车 数据 预测 每 个 共享 单车 服务 点 的 单车 
需求 量 , 从 而 提前 准备 需 储备 的 单车 数量 。 

在 这 个 问题 中 ,每 一 条 数据 有 8 个 特征 : 钟点 (hour)、 季 节 (season)、 是 否 为 节假日 
Choliday) 是否 为 周末 (wkday) KAAR i (weather), ^C if (temp), 湿度 (hum) 和 风速 
(wdspd)。 数 据 的 标签 是 单车 的 需求 量 (count)。 表 7. 1 是 部 分 训练 数据 的 样本 。 

在 本 例 中 ,有 一 些 特征 的 值 没有 数值 意义 。 它 们 只 表示 特征 的 某 种 状态 或 属性 。 例 如 ， 
从 表 7. 1 可 以 看 到 ,季节 (season) 这 个 特征 取 值 1.2、3 或 4, 分 别 表示 春 、 夏 、 秋 , 冬 这 4 个 季 


O 本 例 数据 来 自 Kaggle 竞赛 官方 网 站 https://www. kaggle. com/c/bike-sharing-demand, 数 据 文件 名 是 bike. csv, 
也 可 从 GitHub 网 站 的 本 书页 面 https://github. com/wangleil8/machine_learning 下 载 。 
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R71 共享 单车 问题 的 部 分 训练 数据 样本 


hour season holiday wkday weather temp hum wdspd count 
21 4 0 0 1 4.84 56 0.00 95 
10 3 0 0 2 8. 28 74 6.13 249 
23 4 0 J T 5. 25 81 16.99 95 
5 2 0 1 2 13.47 65 15.67 28 
20 1 1 0 1 10. 15 92 8. 50 57 
节 。 尽 管 季节 特征 的 取 值 是 数字 ,但 它们 并 没有 数值 意义 ,只 是 表示 4 个 不 同 季节 的 符号 。 
这 类 特征 就 称 为 类 别 特征 。 还 有 一 类 特征 是 数值 特征 ,它们 的 取 值 有 数值 意义 ,通常 是 某 个 
区 间 内 的 实数 或 自然 数 。 例 如 ,温度 就 是 一 个 数值 特征 。 在 一 个 含有 类 别 特征 的 问题 中 , 标 


签 与 类 别 特征 之 间 的 关系 往往 并 不 是 整体 的 连续 关系 ,而 是 由 多 个 局 部 关系 构成 的 。 例 如 ， 
要 知道 季节 与 需求 量 的 关系 ,必须 将 数据 按 季 节 的 4 个 值 分 组 ,分 别 计算 每 组 的 平均 需求 量 
( 见 图 7.20)。 从 图 7. 20 中 可 以 看 到 ,共享 单车 的 需求 量 依 季节 的 不 同 而 变化 。 在 春天 时 需 
求 较 低 ,在 秋天 时 需求 较 高 。 


季节 与 需求 量 


春 


夏 秋 d 
图 7.20 4 个 季节 的 共享 单车 需求 量 


由 于 标签 与 类 别 特征 之 间 不 是 连续 的 关系 ,因此 ,线性 回归 等 算法 通常 不 适用 于 含有 大 
量 类 别 特征 的 问题 。 对 于 含有 较 多 类 别 特征 的 问题 ,可 以 采用 决策 树 算 法 。 它 是 处 理 类 别 
特征 的 有 效 算法 。 在 本 例 的 共享 单车 的 需求 量 问题 中 ,有 钟点 、 季 节 、 是 否 为 节假日 以 及 是 
否 为 周末 这 4 个 类 别 特征 ,可 以 考虑 选用 决策 树 算法 。 图 7. 21 中 的 程序 用 图 7. 19 中 的 决 
策 树 回归 算法 训练 一 棵 深度 不 超过 2 的 决策 树 ,并 用 来 预测 单车 需求 量 。 


inport numpy as np 

import pandas as pd 

fram sklearn.model selection import train test split 

frammachine learning.lib.decision tree regressor import DecisiorTreeRegressor 


e WNE 


图 7.21 共享 单车 需求 量 问题 的 决策 树 回归 算法 
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fram sklearn.metrics import r2 score 


df-pd.read csv("./bike.csv") 


5 
6 
7 defget data(): 
8 
9 d£.datetime- df.datetime.arply(pd.to datetime) 


10 df[ "hour" ]- d£.datetime.apply (lambda x: x.hour) 

u y-df[ 'comnt'] .values 

2 df.drop( 'datetime', 'casual' 'registered', 'count'], 1, inplace= True) 
13 X- df.values 

14 return X, y 


16 X, y-get data) 

17 X train, X test, y train, y test-train test split(X, y, test size- 0.5, randa state- 0) 
18 model- DecisioriTreeRegressor (max depth- 2) 

19 model.fit(X train, y train) 

20 y pred-model.predict(X test) 

21 print('r2- ('.fommt(get r2(y test, y pred))) 


图 7.21 (4D 


图 7.21 中 的 第 7 一 14 行 是 标准 的 数据 处 理 函 数 get_data。 假 定 训练 数据 bike. csv 保 
存 于 当前 目录 ,在 第 8 行 中 用 Pandas 的 csv 文件 读 取 功能 将 数据 读 入 内 存 并 存储 成 一 个 
DataFrame 数据 结构 。 在 原 数 据 文件 中 ,钟点 (hour) 是 字符 串 格式 的 时 间 特 征 。 为 了 计算 
方便 , 需 将 其 转变 为 数值 格式 的 钟点 特征 。 第 10 行 以 值 0 一 23 对 应 一 天 中 的 24 个 小 时 。 
第 11 行 取出 需求 量 作为 标签 。 

在 图 7. 21 中 的 第 16 行 ,调用 get_data 函数 读 取 并 处 理 数据 。 第 17 行进 行 训 练 数据 与 
测试 数据 的 分 离 。 第 18.19 行 调用 图 7. 19 中 的 决策 树 回 归 算 法 训练 模型 ,指定 深度 不 超过 
2。 第 20,21 行 测试 模型 ,并 计算 模型 在 测试 数据 上 的 决定 系数 值 。 

运行 图 7. 21 中 的 程序 ,可 以 得 到 如 图 7. 22 所 示 的 简单 的 决策 树 模型 。 这 棵 决策 树 中 
出 现 了 两 个 特征 : 特征 0 是 钟点 ,特征 1 是 季节 。 这 是 共享 单车 问题 中 最 重要 的 两 个 特征 。 
图 7. 22 中 的 决策 树 模 型 可 以 用 文字 描述 如 下 : 如 果 钟 点 在 5 点 以 前 , 则 预测 需求 量 为 25; 
如 果 钟 点 在 5 点 到 6 点 之 间 , 则 预测 需求 量 为 74; 如 果 钟 点 在 6 点 以 后 , 则 还 要 看 季节 ,如 果 
是 在 春季 , 则 预测 需求 量 为 152, 在 其 余 季节 就 预测 需求 量 为 290。 

这 个 简单 模型 在 测试 数据 上 的 决定 系数 是 0. 39。 如 果 逐 渐 增加 决策 树 的 深度 ,模型 的 
决定 系数 也 会 随 之 逐渐 增 大 。 当 深度 到 达 一 定 程度 之 后 ,决定 系数 就 不 再 增加 了 。 通 过 绘 
制 深度 与 决定 系数 的 关系 图 ,可 以 直观 地 判断 最 好 的 模型 预测 效果 所 对 应 的 决策 树 深度 。 
图 7. 23 是 模型 在 共享 单车 问题 的 测试 数据 上 的 决定 系数 与 深度 之 间 的 关系 图 。 从 图 中 可 
以 看 到 ,深度 为 8 的 决策 树 模型 的 预测 效果 最 好 。 
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据 此 ,在 图 7. 21 中 的 程序 中 , 取 深 度 为 8。 运行 该 程序 后 ,就 得 到 一 个 深度 为 8 的 决策 
树 模型 。 该 模型 在 测试 数据 上 的 决定 系数 是 0.77。 值 得 一 提 的 是 ,如 果 用 线性 回归 算法 来 
求解 共享 单车 问题 ,所 得 到 线性 模型 在 测试 数据 上 的 决定 系数 只 能 达到 0. 19 , 远 不 如 决策 树 


jo 
8-6 
X6 / PETI 
j-0 Jd 
6-5 


6-1 
x«5/ Nes DA Noe! 


p-25 | p=74 p=152 
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图 7.22 共享 单车 需求 量 问题 的 决策 树 模型 
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图 7.23 决策 树 模型 的 决定 系数 与 深度 之 间 的 关系 


算法 的 效果 。 
7.3.3 决策 树 分 类 问题 的 CART 算法 的 实现 及 应 用 


FERME 29 2) EL RREA EK ,就 得 到 决策 树 分 类 算法 的 实现 。 在 图 7. 24 的 第 9 一 20 行 
实现 了 一 个 由 基 类 派生 出 的 DecisionTreeClassifier 类 。 在 它 的 构造 函数 中 ,第 13 ITÉ ERI 
PURAR, MELUM. 13) 所 示 ,在 第 4 一 7 行 中 实现 。 其 中 ,为 了 避免 计算 0 的 对 
数 ,第 7 行 在 取 对 数 时 加 了 一 个 小 随机 项 。 第 15 一 16 行 的 predict_ proba 函数 的 功能 是 完 
成 概率 预测 任务 。 在 第 16 行 中 直接 调用 基 类 的 predict 函数 ,并 输出 一 个 概率 向 量 来 表示 


样本 属 了 


F 每 一 个 类 别 的 概率 。 第 18 一 20 行 的 predict 函数 通过 最 大 概率 分 类 函数 将 概率 预 


测 的 结果 转化 为 类 别 预测 。 
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machine learning.lib.decision tree classifier 
1 import numpy as np 
2  franmachine learning.lib.decision tree base import DecisicrTrecBase 
3 

4 dœfgt entropy (y, idx): 

5 _ + ke y-shape 

6 pe rp.average (y. idx], axis- 0) 

3 

8 

9 


retum - np.log(pt 0.001* np.randem.rand(k)) .dot (p.T) 


class DecisiconTreeClassifier (DecisionTreeBase) : 


10 def init (self, mex depth- 0, feature sample rate- 1.0): 
n super(). init — (max depth-max depth, 

12 feature sample rate- feature sample rate, 

13 get score-get entropy) 


15 def predict proba(self, X): 
16 return super () .predict (X) 


18 def predict (self, X): 
19 proba-self.predict proba(X) 
20 return np.argmax (proba, axis- 1) 


7.24 基于 CaFT 算 法 基 类 的 决策 树 分 类 算法 


例 7.5 语音 识别 问题 ?。 

语音 识别 是 机 器 学 习 的 重要 应 用 场景 。 本 例 考察 一 个 简单 的 语音 识别 问题 : 根据 一 段 
语音 的 特征 ,判断 发 声 者 的 性 别 。 在 这 个 问题 中 ,每 条 训练 数据 含有 21 个 刻画 声音 特点 的 
变量 ,例如 音域 (IQR) V È i Cmeanfun) Aiii sp. ent) 等 。 数 据 还 含有 一 个 性 别 标签 ,表示 
声音 来 自 男性 还 是 女性 。 

这 是 一 个 二 元 分 类 问题 。 图 7. 25 中 的 程序 训练 一 棵 深度 为 5 的 决策 树 来 推断 发 声 者 
的 性 别 。 程 序 的 第 8 一 13 行为 数据 读 取 函 数 get_data。 将 数据 voice. csv 下 载 至 当前 目录 之 
后 ,在 第 9 行 用 Pandas 将 数据 读 和 内存 ;第 10 行将 性 别 标签 由 字符 串 形 式 转换 为 0-1 标签 
形式 ,0 表示 女声 ,1 表示 男声 ;第 11、12 行将 标签 从 数据 中 去 除 ,并 将 余下 的 变量 作为 特征 。 
第 15 行 调用 get data 函数 来 读 取 数 据 。 第 17、18 行 运用 OneHotEncoder 将 标签 转化 为 向 
量 形式 。 第 19、20 行 调用 图 7. 24 中 的 决策 树 分 类 算法 训练 模型 。 


O 本 例 数据 来 自 Kaggle 竞赛 网 站 https://www. kaggle. com/primaryobjects/voicegender, 数 据 文件 是 voice. csv, 
也 可 从 GitHub 网 站 的 本 书页 面 https://github. com/wangleil8/machine_learning F $. 


179 


机 器 学 习 算法 导论 


1 inport numpy as np 
2 import pandas as pd 

3 fro sklearn.mpdel selection import train test split 

4 framsklearn.metrics import accuracy score 

5 from sklearn.preprocessing import OneHotEncoder 

6 frammachine learninglib.decisicn tree classifier import DecisicrifeeClassifier 
7 

8 

9 


def get. data) : 
df-pd.read csv(". /voice.csv") 
10 y= (Gf "1abel'] .values-- 'male') .astype (np. int) 
n df.drop( 'label'], 1, inplace- True) 
12 X=df.values 
13 retum X, y.reshape(- 1,1) 


15 X, y-get data() 
16 X train, X test, y train, y test-train test split(X, y, test size- 0.5, randum state- 0) 
17  encoder- OneHotEncoder () 

18 y train-enooder.fit transform(y train).toarray() 

19  model- DecisionTreeClassifier (max depth 5) 

20  model.fit(X train, y train) 

21 y pred-model.predict (X test) 

22  accuracy-accuracy soore(y test, y pred) 

23  print("accuracy- ()" format (accuracy) ) 


图 7.25 发 声 者 性 别 判断 问题 的 决策 树 算 法 


运行 图 7. 25 的 程序 后 ,得 到 一 个 深度 为 5 的 决策 树 模型 。 该 模型 在 测试 数据 上 的 预测 
准确 率 为 96.5%。 值 得 指出 的 是 ,对 于 这 个 问题 ,在 同样 的 训练 数据 上 ,应 用 Logistic 回归 
算法 得 到 的 模型 在 相同 的 测试 数据 上 只 有 90. 5 多 的 预测 准确 率 。 由 此 可 以 看 到 ,在 这 个 实 
例 中 ,决策 树 分 类 算法 的 预测 效果 显著 地 优 于 Logistic 回归 算法 。 


7.4 集成 学 习 算法 


所 谓 集成 学 习 , 就 是 要 训练 出 完成 同一 任务 的 多 个 不 同 的 子 模型 ,并 综合 这 些 子 模型 的 
预测 结果 做 出 最 终 的 预测 。 集 成 学 习 中 的 每 一 个 子 模型 都 称 为 一 个 弱 模 型 。 对 多 个 弱 模 型 
的 综合 就 称 为 集成 模型 。 弱 模型 的 选择 可 以 是 灵活 多 样 的 ,它们 既 可 以 源 于 不 同 的 机 器 学 
习 算 法 ,也 可 以 源 于 同一 算法 ,但 采用 不 同 的 训练 数据 或 者 不 同 的 特征 选择 。 综 合 各 弱 模 型 
预测 结果 的 方式 也 可 以 灵活 多 样 ,可 以 对 它们 的 预测 取 平 均值 ,也 可 以 取 众 数 ,还 可 以 将 一 
个 弱 模型 的 输出 作为 另 一 个 弱 模 型 的 输入 。 
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所 有 具备 上 述 特性 的 算法 都 属于 集成 学 习 的 范畴 。 通 过 集成 学 习 , 可 以 源源 不 断 地 将 
现 有 模型 组 合 进来 完成 复杂 的 任务 。 正 所 谓 “ 众 人 拾 柴 火焰 高 ”, 集 成 学 习 的 效果 往往 优 于 
单个 弱 模型 。 目 前 许多 优秀 的 机 器 学 习 算法 都 是 集成 学 习 算法 。 

集成 学 习 算 法 可 以 大 致 分 为 两 类 : 自助 算法 (bootstrap) 和 提升 算法 (boosting)。 本 节 
通过 随机 森林 算法 来 介绍 自助 算法 的 基本 思想 。7. 5 节 将 通过 梯度 提升 决策 树 来 介绍 提升 


7.4.1 随机 森林 分 类 算法 


随机 森林 是 一 个 自助 算法 。 其 基本 思想 是 : 通过 对 训练 数据 的 重复 采样 ,来 生成 多 个 
原 训练 数据 的 子 集 ;然后 ,针对 每 一 个 子 集 训练 一 个 弱 模 型 ;最 后 ,综合 这 些 弱 模型 的 预测 结 
果 作 为 最 终 的 预测 值 。 

首先 来 看 分 类 问题 的 类 别 预 测 任务 形式 。 针 对 类 别 预测 ,随机 森林 分 类 算法 通过 对 训 
练 数 据 的 采样 来 产生 原 训 练 数据 的 一 系列 子 集 。 然 后 ,对 每 一 个 子 集训 练 出 一 棵 决策 树 , 构 
成 一 片 森林 。 随 机 森林 算法 用 投票 的 方式 来 做 出 预测 : 任 给 一 条 测试 数据 ,随机 森林 算法 
让 森林 中 的 每 一 棵 树 都 来 预测 其 标签 所 属 的 类 别 , 同 时 在 每 一 棵 树 的 预测 类 别 上 投 一 票 。 
最 后 , 选 出 得 票 率 最 高 的 类 别 作为 该 森林 的 类 别 预测 。 

由 此 可 见 , 随 机 森林 分 类 算法 是 一 个 包含 多 棵 决策 树 的 分 类 器 。 其 输出 的 类 别 是 由 森 
林 中 的 所 有 决策 树 输出 类 别 的 众 数 来 确定 的 。 此 算法 基本 思想 的 依据 是 : 虽然 森林 中 的 每 
一 棵 树 都 有 一 定 的 预测 错误 的 概率 ,但 是 它们 同时 都 出 错 的 概率 却 是 较 低 的 。 

例 7.6 假定 及 个 独立 的 模型 。 它 们 都 能 预测 抛 一 枚 硬币 的 结果 是 正面 朝 上 还 是 反 
面 朝 上 ,并 且 预 测 准确 率 都 是 60%。 考 虑 如 下 的 集成 算法 : 如 果 个 模型 中 有 超过 半数 是 
预测 正面 , 则 算法 预测 正面 ,否则 算法 预测 反面 。 如 此 ,集成 算法 预测 正确 的 概率 是 


P= 5 («es X (1—0. 6)77 


Sa NE 
i-a 


X n = 41 时 ,用 上 式 可 计算 出 集成 算法 预测 正确 的 概率 为 


4l 41 
P= 下 | | eoe x ace er — 0. 9035 


in X 了 


相 比 于 单一 模型 ,集成 算法 显著 地 提高 了 预测 准确 率 。 事 实 上 ,只 要 n 三 41, 集成 算法 
的 预测 准确 率 都 高 于 90%。 

TE (8I 7.6 中 有 一 个 十 分 重要 的 条 件 , 即 各 弱 模 型 之 间 相 互 独立 。 在 随机 森林 算法 中 ,这 
个 条 件 就 是 指 决策 树 相 互 独立 。 由 于 生成 决策 树 的 数据 子 集 取 自 同一 训练 数据 集 ,因此 ,这 
些 数据 子 集 具 有 相同 的 分 布 。 这 使 得 算法 生成 的 决策 树 都 比较 相似 ,也 就 导致 生成 的 决策 
树 相互 不 独立 。 为 了 增加 森林 中 决策 树 之 间 完 全 相互 独立 的 可 能 性 ,随机 森林 算法 在 训练 
每 一 棵 决策 树 时 需要 增加 以 下 的 额外 步骤 : 在 CART. 算法 中 做 每 一 次 数据 划分 时 ,随机 地 
选取 一 部 分 特征 进行 遍历 ,而 不 是 遍历 全 部 特征 。 引 入 了 这 一 层 随机 性 之 后 ,多 次 运行 
CART 算法 训练 出 的 决策 树 可 能 有 相 异 的 结构 。 由 此 可 以 增加 模型 之 间 的 完全 相互 独立 的 
可 能 性 。 
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在 图 7. 18 中 的 决策 树 CART 算法 的 基 类 中 ,有 一 个 参数 feature sample rate, C Æ 
[0,1] 区 间 内 的 一 个 数 ,由 构造 函数 指定 。 在 每 次 数据 划分 时 ,feature_sample_rate 使 得 算 
法 可 以 随机 选取 相应 比例 的 特征 进行 遍历 ,而 不 用 遍历 全 部 特征 。 图 7. 26 中 就 是 用 这 一 参 
数 实现 的 随机 森林 分 类 算法 。 


machine learning.lib.randam forest classifier 
import numpy as np 
frm mci learmning.lib.decisicn tree classifier import DecisiarfreeClassifier 


class RandanForestClassifier: 
def init (self, num treesmax depth, feature sample rate, 
data sample rate, randm state- 0): 

self.max depth, self.num trees- max depth, num trees 
self.feature sample rate- feature sample rate 
self.data sample rate- data sample rate 

10 self.trees-[ ] 

11 np. random. seed (random state) 


(0 0 - 0 0&5 UNE 


13 def get. data semples (self, X, y): 


14 shuffled indices- np.randoam.permitation (len (X) ) 

15 size-int(self.data sample rate* len(X)) 

16 selected indices- shuffled indices :size] 

17 return X selected indices], y[ selected indices] 

18 

19 def fit(self, X, y): 

20 for t in range (self.num trees): 

21 X t, y t-self.get data samples(X, y) 

22 model- DecisionTreeClassifier ( 

23 max depth- self.max depth, 

24 feature sample rate- self.feature sample rate) 
25 model.fit(X t, y t) 

26 self.trees.append (model) 

27 

28 def predict (self, X): 

29 y 

30 for iin range (len(X)): 

31 preds- [ np.asscalar (tree.predict 4 i].reshape(1,- 1))) for tree in self.trees] 
32 y-agpend (max (set (preds), key- preds.count) ) 

Ec return np.array (y) 


图 7.26 随机 森林 分 类 算法 
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在 图 7. 26 中 ,第 5 一 11 行 是 类 RandomForestClassifier 的 构造 函数 。 类 中 有 如 下 成 员 : 
(1) num trees 和 max_depth。 它 们 决定 森林 中 树 的 棵 数 以 及 每 棵 树 的 最 大 深度 。 
(2) feature_sample_rate。 它 是 [0,1] 之 间 的 一 个 数 。 在 CART 算法 做 每 一 次 的 数据 
划分 时 , 按 feature sample rate 的 比例 随机 选取 一 部 分 特征 进行 遍历 。 
(3) data_sample_rate。 这 也 是 [0,1] 之 间 的 一 个 数 , 用 于 决定 训练 每 棵 树 时 对 数据 采 
样 的 比例 。 
(4) trees。 这 是 一 个 数组 ,用 于 记录 森林 中 的 决策 树 。 
图 7. 26 中 的 第 19 一 26 行 定义 的 fit 函数 是 随机 森林 算法 的 主体 。 随 机 森林 算法 要 生 
成 num_trees 棵 决策 树 。 在 第 20 一 26 行 的 每 一 次 循环 中 ,第 21 行 调用 第 13 一 17 行 中 定义 
的 get data sample 函数 , 按 data. sample rate 的 比例 随机 采样 一 部 分 训练 数据 ;第 22 一 25 
行 调 用 CART 算法 ,用 采样 得 到 的 数据 训练 决策 树 模型 ;第 26 行将 训练 好 的 模型 存 人 数组 
trees。 通 过 num trees 次 循环 就 得 到 了 一 个 包含 num trees 棵 树 的 森林 。 
第 28 一 33 行 是 随机 森林 的 预测 函数 。 第 30 一 32 行 通过 循环 对 每 一 条 测试 数据 进行 预 
W. 。 对 每 一 条 测试 数据 ,在 第 31 行 收集 森林 中 每 一 棵 决策 树 的 类 别 预测 投票 。 第 32 行 选 
出 得 票 率 最 高 的 类 别 作为 森林 的 预测 。 

例 7.7 墨 渍 数据 分 类 。 

墨 渍 数据 集 是 Sklearn 标准 库 集 成 的 一 个 常用 的 分 类 问题 数据 集 。 根 据 指定 的 中 心 数 
k, Sklearn 的 标准 函数 make_blobs 在 平面 上 生成 k 个 不 同 颜色 的 中 心 , 并 在 每 个 中 心 周围 
按 正 态 分 布 生成 与 中 心 同色 的 点 ,如 图 7. 27 所 示 。 由 于 数据 采样 直观 上 像 是 & 片 不 同 颜色 
的 墨 渍 ,所 以 将 该 数据 集 称 为 墨 渍 数据 集 。 墨 涡 数 据 分 类 可 以 看 成 一 个 & 元 分 类 问题 。 它 
的 类 别 预测 任务 是 根据 给 定点 在 平面 上 的 位 置 来 预测 其 颜色 。 


7.27 ” 墨 渍 数据 采样 


深度 为 1 的 决策 树 只 有 两 个 叶 节 点 ,所 以 只 能 将 区 域 分 成 两 部 分 。 当 & — 3 时 , 单 棵 深 
度 为 1 的 决策 树 必定 有 至 少 1/3 的 概率 不 能 正确 预测 。 然 而 .将 一 组 深度 为 1 的 决策 树 组 
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成 一 个 森林 却 可 以 获得 较 高 的 预测 准确 率 。 图 7. 28 中 的 程序 生成 1000 条 墨 渍 数据 。 每 条 
数据 有 横 坐 标 和 纵 坐 标 两 个 特征 。 标 签 是 颜色 的 数字 编码 的 形式 。 将 1000 条 数据 随机 平 
分 成 训练 数据 和 测试 数据 两 部 分 。 在 训练 数据 上 分 别 构建 深度 为 1 的 决策 树 模 型 和 随机 森 
林 模 型 ,并 在 测试 数据 上 用 这 两 个 模型 来 预测 点 的 颜色 。 


1 fr sklearn.datasets import make blcbs 

2 framsklearn.model selection import train test split 

3 fram sklearn.preproocessing import OneHotEncoder 

4 franmechine learning.lib.cecisicn tree classifier import DecisiorüreeClassifier 
5 frawmechine learning.lib.randm forest classifier import RandmEorestClassifier 
6 framnsklearn.metrics import accuracy score 

1 

8 

9 


X, y-make blcbs(n semples- 1000, centers-3, randem state-0, cluster std- 1.0) 
X train, X test, y train, y test-train test split(X, y, test size- 0.5, ranim state- 0) 
10 encoder= OneHotEncoder () 
11 y train-enccder.fit transform(y train.reshape(- 1,1)) .toarray () 


13 tree-DecisionTreeClassifier (max depth- 1) 

14 tree.fit(X train, y train) 

15 y pred-tree.predict(X test) 

16 print("decision tree accuracy- ()".format(accuracy score(y test, y pred))) 


18 forest-RandamForestClassifier (max depth- 1, num trees- 100, 

19 feature sample rate-0.5, data sample rate- 0.1) 
20 forest.fit(X train, y train) 

21 y pred-forest.predict (X test) 

22 print ("random forest accuracy- ()".format (accuracy soore(y test, y pred))) 


图 7.28 墨 渍 数据 分 类 的 决策 树 算法 和 随机 森林 算法 


运行 图 7. 28 的 程序 得 到 如 下 结果 : 决策 树 算法 预测 准确 率 为 63%。 而 随机 森林 算法 
的 预测 准确 率 却 达 到 了 80%。 图 7. 29(a) 和 (b) 分 别 展示 了 决策 树 算法 与 随机 森林 算法 的 
预测 结果 。 从 该 图 中 可 以 看 到 ,决策 树 算法 只 能 区 分 两 个 区 域 ,而 随机 森林 算法 成 功 地 区 分 
出 了 3 个 区 域 。 

要 理解 随机 森林 算法 能 够 成 功 区 分 出 3 个 区 域 的 原理 ,需要 深入 观察 森林 中 的 100 PR 
树 的 生成 方式 。 其 中 ,每 一 棵 决策 树 的 深度 都 是 1, 所 以 要 进行 1 次 数据 划分 。 每 次 数据 划 
分 选取 50% 的 特征 ,在 本 例 中 即 为 1 个 特征 。 可 见 ,随机 森林 中 的 每 棵 决策 树 都 可 以 用 横 坐 
标 或 纵 坐 标 将 数据 分 为 两 个 区 域 。 为 简单 起 见 , 用 随机 森林 中 抽取 的 3 棵 决策 树 来 说 明 随 
机 森林 的 划分 原理 。 图 7. 30 展示 了 这 3 棵 决策 树 的 划分 结果 。 其 中 ,图 7. 30(a) 中 的 决策 
树 用 纵 坐标 进行 数据 划分 ,而 图 7. 30(b) 和 (c) 中 的 决策 树 都 用 横 坐 标 进行 划分 。 

显然 ,图 7. 30(a) 中 的 决策 树 只 能 区 分 蓝 点 和 绿 点 ,而 无 法 预测 黄 点 ;但 图 7. 30(b) 和 
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图 7.30 随机 森林 中 3 棵 决策 树 的 划分 结果 


Cc) 中 的 决策 树 可 以 区 分 黄 点 和 非 黄 点 。 因 此 ,如 果 一 个 黄 点 被 图 7. 30(a) 中 的 决策 树 预测 
错误 ,但 被 图 7. 30(b) 和 (c) 中 的 决策 树 预 测 正确 , 则 随机 森林 就 预测 该 点 为 黄 点 ,综合 后 得 
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到 正确 的 预测 。 类 似 地 ,随机 森林 也 能 够 对 蓝 点 和 绿 点 做 出 正确 的 预测 。 这 就 是 随机 森林 
能 够 成 功 分 出 3 个 区 域 的 基本 原理 。 

例 7.8 发 声 者 性 别 判断 问题 的 随机 森林 模型 。 

在 例 7.5 中 ,采用 决策 树 算 法 生成 一 棵 深度 为 5 的 决策 树 , 并 根据 声音 特性 来 预测 发 声 
者 的 性 别 ,获得 了 96.5% 的 预测 准确 率 。 现 用 与 例 7. 5 相同 的 训练 数据 训练 一 个 深度 为 5 
的 随机 森林 ,并 在 相同 的 测试 数据 上 进行 预测 。 求 解 此 问题 的 算法 描述 见 图 7. 31。 


1 import numpy as np 
2 import pandas as pd 
3 fransklearn.mxdel selection import train test split 
4 fram sklearn.preprooessing import OneHotEncoder 
5 frawmechine leaming.lib.decision tree classifier import DecisionIreeClassifier 
6 franmechine leaming.lib.randm forest classifier import PandmForestClassifier 
7 fram sklearn.metrics import accuracy score 
8 
9 defget data(: 
10 d£- pd.read csv("./voice.csv") 
1 y= (df[ '1abel'] .values-- 'male') .astype (np. int) 
12 df.drop(L 'label'], 1, inplace- True) 
13 X- df.values 
14 return X, y.reshape(- 1,1) 
15 


16 X, y-get data() 
17 X train, X test, y train, y test=train test split(X, y, test size-0.5, ranim state- 0) 
18 encoder- OneHotEncoder () 

19 y train-enooder.fit transform(y train).toarray() 


21 tree-DecisionTreeClassifier (max depth- 5) 

22 tree.fit(X train, y train) 

23 y pred-tree.predict(X test) 

24 print("tree accuracy- ()".format(accuracy score(y test, y pred))) 


26 m, n-X.shape 

27 forest-FandamForestClassifier(mex depth- 5, num trees- 100, 

28 feature sample rate-1.0/np.sqrt(n), data sample rate- 0.2) 

29 forest.fit(X train, y train) 

30 y pred-forest.predict(X test) 

31 print("forest accuracy- {}".fommat (accuracy score(y test, y pred))) 


7.31 发 声 者 性 别 判断 问题 的 随机 森林 算法 
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运行 图 7. 31 中 的 算法 ,得 到 的 随机 森林 在 测试 数据 上 有 97.4% 的 预测 准确 率 。 其 预测 
准确 率 高 于 例 7. 5 中 的 单 棵 决策 树 的 预测 准确 率 。 这 说 明 ,对 发 声 者 性 别 判断 问题 ,随机 森 
林 算 法 有 更 好 的 分 类 预测 能 力 。 

图 7. 31 中 的 随机 森林 算法 采用 1 Vn 作为 feature_sample_rate 参数 的 值 。 其 中 ,7 是 特 
征 数 。 在 实际 应 用 中 ,应 当 针 对 不 同 的 问题 选取 不 同 的 feature. sample rate 的 值 。 也 可 以 
尝试 的 方法 对 比 多 个 不 同 的 参数 值 的 分 类 效果 ,从 中 选取 分 类 效果 最 好 的 那个 值 作为 
feature_sample_rate。 同 样 ,还 可 以 用 尝试 的 方法 确定 max_depth、num_trees 以 及 data_ 
sample_rate 的 值 ,从 中 选取 一 个 分 类 效果 最 好 的 组 合 。 


7.4.2 随机 森林 回归 算法 


随机 森林 算法 也 可 以 应 用 于 回归 问题 。 与 随机 森林 分 类 算法 类 似 , 随 机 森林 回归 算法 
对 数据 进行 重复 采样 ,并 基于 每 一 组 采样 ,用 决策 树 回 归 算 法 构造 一 棵 决策 树 。 对 给 定 的 测 
试 数据 ,随机 森林 回归 算法 计算 出 随机 森林 中 全 体 决 策 树 的 预测 值 的 平均 数 ,并 将 其 作为 随 
机 森林 的 最 终 预 测 结果 。 重 复 采样 是 统计 学 中 降低 估计 方差 的 重要 方法 。 通 过 重复 采样 ， 
随机 森林 预测 的 均 方 误差 ,以 及 发 生 过 度 拟 合 的 概率 都 可 能 小 于 单 棵 决策 树 。 

图 7.32 是 随机 森林 回归 算法 的 实现 。 它 与 图 7. 26 中 的 随机 森林 分 类 算法 只 有 两 个 区 
别 。 第 一 个 区 别 是 第 22 行 中 用 的 是 决策 树 回 归 算 法 ,而 不 是 图 7. 26 中 的 决策 树 分 类 算法 。 
第 二 个 区 别 在 于 第 27 一 29 行 中 的 预测 函数 ,随机 森林 回归 算法 以 全 体 决 策 树 的 预测 值 的 平 
均 数 作为 最 终 预测 结果 ,而 图 7. 26 中 的 随机 森林 分 类 算法 则 以 投票 的 方式 获得 最 终 预 测 
结果 。 


machine _leaming.lib.random forest regressor 


1 import numpy as np 
2 franmedhine learmning.lib.decisicn tree regressor import DecisiorifreePegressor 
3 
4 class RandacForestRFegressor: 
5 def init (self, nm trees, max depth, feature sample rate, 
6 data sample rate, random state- 0): 
7 self.max depth, self.num trees-mex depth, num trees 
8 self.feature sample rate- feature sample rate 
9 self.deta sample rate-data semple rate 
10 self.trees-[ ] 
nu rp.randam.seed(randcm state) 
12 
13 def get data semples (self, X, y): 
14 shuffled indices- np.randam.permitation (len (X) ) 
15 size int(self.data sample rate* len(X)) 


图 7.32 随机 森林 回归 算法 
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16 selected indices- shuffled indices :size] 
17 return X selected indices], y selected indices] 
18 
19 def fit(self, X, y): 
20 for t in range(self.num trees): 
2 X t, y t-self.get data samples(X, y) 
22 model- DecisiorTreeRegressor (max depth- self.mex depth, 
23 feature sample rate- self.feature sample rate) 
24 model.fit(X t, y t) 
25 self.trees.append (model 
26 
2T def predict (se1£,X) : 
28 preds- np.array ( tree.predict(X) for tree in self.trees]) 
29 return np.average (preds, axis- 0) 
图 7.32 (585 


例 7.9 共享 单车 问题 的 随机 森林 算法 。 

图 7.33 中 的 程序 用 与 例 7.4 完全 相同 的 训练 数据 与 测试 数据 来 对 比 随 机 森林 算法 与 
决策 树 算法 。 在 第 19 一 22 行 中 声明 了 一 个 深度 为 8 的 决策 树 模型 ,并 对 其 进行 训练 与 测 
试 。 在 第 24 行 中 声明 了 一 个 随机 森林 模型 ,并 指定 随机 森林 中 每 棵 决策 树 的 深度 为 8。 随 
机 森林 中 总 共有 100 棵 决策 树 。 随 机 森林 中 的 每 棵 决策 树 都 是 基于 20% 的 训练 数据 ,而 且 
在 此 问题 中 不 对 特征 做 随机 采样 。 


1 import pandas as pd 

2 framsklearn.model selection import train test split 

3 franmachine learning.lib.decision tree regressor import DecisionTreeRegressor 
4 frammachine learning.lib.randuam forest regressor import RandamForestRegressor 
5 framsklearn.metrics import r2 score 
6 

7 

8 

9 


def get. data) : 
df pd.read csv("./bike.csv") 
d£.datetime- df.datetime.apply (pd.to datetime) 


10 df[ 'hour']- d£ .datetime.apply (lambda x: x.hour) 

1 y-df[ 'count'] .values 

12 d£.drop (| 'datetime', 'casual', 'registered', 'count'], 1, inplace= True) 
B X=df.values 

14 retum X, y 

15 


图 7.33 共享 单车 问题 的 决策 树 算法 和 随机 森林 算法 
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16 X, y-get data() 
17 X train, X test, y train, y test-train test split(X, y, test size-0.5, randm state- 3) 


19 tree-DecisionTreeRegressor (max depth- 8) 

20 tree.fit(X train, y train) 

21 y pred-tree.predict(X test) 

22 print("tree r2- ()".formmat(r2 score(y test, y pred))) 
23 


24 forest-RandamForestRegressor (max depth- 8, num trees- 100, 
25 feature sample rate- 1.0, data sample rate- 0.2) 
26 forest.fit(X train, y train) 

2] y pred-forest.predict(X test) 

28 print("forest r2- ()".format(r2 score(y test, y pred))) 


图 7.33 (f£ 


运行 图 7. 33 中 的 程序 ,得 到 的 决策 树 和 随机 森林 的 决定 系数 值 分 别 为 0. 77 与 0. 82 。 
经 过 在 不 同 的 训练 数据 与 测试 数据 上 重复 这 个 实验 ,证 实 了 这 个 结论 的 稳定 性 。 因 此 ,在 这 
个 问题 中 ,随机 森林 算法 优 于 决策 树 算 法 。 

在 实际 问题 中 ,应当 通 过 实践 来 选取 合适 的 feature. sample rate 值 。 例 如 ,图 7. 33 中 
的 随机 森林 回归 算法 指定 feature sample rate 的 值 为 1.0。 这 是 通过 尝试 不 同 的 取 值 并 对 
比 预测 效果 来 决定 的 。 除 此 之 外 ,也 应 当 采 用 在 实践 中 尝试 的 方法 选 出 max_depth、num_ 
trees 和 data sample. rate 的 最 合适 的 取 值 组 合 。 


7.5 梯度 提升 决策 树 回归 算法 


本 节 通 过 梯度 提升 决策 树 算法 介绍 另 一 个 集成 学 习 的 重要 方法 一 一 提升 法 。 在 7.4 节 
介绍 的 自助 法 中 ,基于 不 同 数据 采样 的 子 模型 之 间 没 有 依赖 关系 。 例 如 ,随机 森林 中 的 每 一 
棵 决策 树 都 是 一 个 独立 的 个 体 。 提 升 法 则 与 自助 法 截然 不 同 。 在 提升 法 中 ,集成 学 习 算法 
在 同一 数据 集 上 依次 训练 出 一 系列 弱 模 型 。 每 一 个 弱 模 型 的 输出 都 是 下 一 个 弱 模 型 的 输 
入 。 因 此 ,这 些 模型 之 间 是 具有 依赖 关系 的 。 提 升 法 的 思想 是 : 让 每 个 弱 模 型 都 能 弥补 前 
一 个 弱 模 型 的 不 足 , 从 而 使 得 集成 模型 得 到 的 最 终 预 测 结果 更 加 准确 。 

梯度 提升 法 是 最 重要 的 集成 学 习 提 升 算法 之 一 。 本 节 通 过 梯度 提升 决策 树 回归 算法 来 
展示 梯度 提升 法 的 主要 思想 。 

梯度 提升 决策 树 回归 算法 是 针对 回归 问题 的 算法 。 它 的 基本 思想 是 : 不 断 生成 新 的 决 
策 树 来 拟 合 前 一 棵 树 的 误差 ,以 期 所 有 决策 树 预测 的 总 和 达到 良好 的 效果 。 具 体 来 说 ,给 定 
一 个 回归 问题 的 训练 数据 S — (CQ Ly) QE? Ly? eG ym) ) , 按照 惯 例 ， 
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x y 

x?T y? 
X-— : gr " 

xo y 


分 别 表 示 特 征 和 矩阵 与 标签 向 量 。 算 法 首先 训练 一 棵 决策 树 Tu 来 最 小 化 均 方 误差 
ly — T,OO |. Hir, —y— T, GO3CRHCRTE T, 的 预测 误差 。 可 以 认为 , ro 是 T 的 不 足 之 
处 。 为 了 弥补 这 一 不 足 , 梯 度 提升 决策 树 回归 算法 再 训练 一 棵 决策 树 T, 来 拟 合 误差 m 。 因 
此 , T, 的 任务 是 最 小 化 均 方 误差 |n 一 T. OO |; ICE Jr, 二 ro 一 Ti(X) 表 示 T 的 预测 误 
差 。 由 此 ,梯度 提升 决策 树 回归 算法 又 可 以 再 训练 一 棵 决策 树 T, 来 拟 合 误差 mm。 这 一 过 程 
可 以 不 断 进行 下 去 ,直至 决策 树 的 拟 合 误差 接近 0。 设 rw 之 0, 上 述 迭 代 过 程 总 共生 成 了 
NN 十 1 棵 决策 树 Tos Tiste Tuo 根据 ro ,ri，,… ,ry 的 定义 有 

ro = y — To(X) 

ri =r — TOO 

rn =r, — TA(X) (7. 20) 


FN = ry — Ty CX) 
将 式 (7. 20) 中 各 式 相 加 并 消 元 后 ,可 以 得 到 


ry 一 一 To(X) 一 Ti(X) 一 … 一 TN(X) G2) 
由 于 假设 ry ~ 0, 式 (7.21) 保 证 了 
了 AS To(X) 十 TI(X) 十 … 十 Tn(X) (7. 22) 


据 此 ,梯度 提升 决策 树 回归 算法 可 以 用 T,(X) 十 Ti(X) 十 … 十 Ty(X) 来 拟 合 标 签 。 这 就 是 
梯度 提升 决策 树 回归 算法 的 基本 原理 。 

基于 梯度 提升 决策 树 回 归 算 法 的 基本 思想 和 原理 ,在 图 7. 34 中 描述 了 梯度 提升 决策 树 
回归 算法 。 图 中 的 类 GBDT 是 梯度 提升 决策 树 的 英文 Gradient Boosting Decision Tree 的 
首 字母 缩写 。 类 GBDT 含有 3 个 成 员 。 它 们 分 别 是 决策 树 的 棵 数 num_trees、 每 棵 树 的 深 
FE max depth 和 数组 trees, 用 于 记录 所 有 由 算法 生成 的 决策 树 Tu .Ti ,…, Tyo 


machine learning.lib.gbdt 
import numpy as np 
from machine learning.lib.decision tree regressor import DecisionTrecRegressor 


def _ init — (self, num trees, max depth): 
self.max depth-max depth 
self.num trees- num trees 


1 
2 
3 
4 class GEDT: 
5 
6 
3 


图 7.34 梯度 提升 决策 树 回 归 算 法 


190 


8 self.trees=[] 


10 def fit(self, X, y): 

u r-y 

12 for t in range (self.num trees): 

13 model= DecisionTreeRegressor (max depth- self.max depth) 
14 model.fit(X, r) 

15 self.trees.apperd (model) 

16 pred model predict (X) 

17 r-r-pred 


19 def predict (se1f,X) : 
20 preds- np.array ( tree.predict(X) for tree in self.trees]) 
21 return np.sum(preds, axis= 0) 


图 7.34 (4 


图 7. 34 中 的 第 10—17 行 中 fic 函数 的 功能 是 训练 GBDT 模型 。 其 中 ,第 12-17 行 的 
循环 实现 了 式 (7. 20) 所 描述 的 过 程 。 在 每 一 次 循环 中 ,都 建立 一 个 决策 树 回 归 模 型 ,用 于 修 
补 上 一 个 模型 的 拟 合 误差 。 在 第 19 一 21 行 的 predict 函数 中 ,算法 对 所 有 决策 树 关 于 给 定 
测试 数据 的 预测 结果 求 和 ,并 以 此 作为 最 终 的 预测 结果 。 

图 7.34 中 的 算法 之 所 以 称 为 “梯度 提升 ?决策 树 ,是 因为 它 是 等 价 于 函数 空间 中 的 梯度 
下 降 算法 ,每 一 次 对 前 一 棵 树 的 误差 的 拟 合 都 等 价 于 在 函数 空间 中 沿 梯度 反方 向 搜索 ,并 以 
此 来 提升 模型 的 效果 。 

例 7.10 房价 预测 的 梯度 提升 决策 树 回归 算法 。 

在 例 3. 3 的 房价 预测 问题 中 ,采用 线性 回归 算法 建立 了 标签 的 预测 模型 。 在 例 3. 3 中 
已 经 对 这 个 问题 的 特征 和 标签 作 了 详细 的 描述 。 该 例 所 用 的 数据 集 是 Sklearn 工具 库 中 的 
california_housing。 现 考察 对 这 个 数据 集 分 别 采用 决策 树 回 归 算 法 、 随 机 森林 回归 算法 和 
梯度 提升 决策 树 回 归 算 法 来 构建 房价 预测 模型 的 预测 效果 ,并 计算 这 3 个 预测 模型 的 决定 
系数 。 相 应 的 算法 见 图 7. 35。 

运行 图 7. 35 的 程序 后 ,得 到 3 个 不 同 的 决策 树 模型 。 决 策 树 回归 算法 、 随 机 森林 回归 
算法 和 梯度 提升 决策 树 回 归 算 法 在 测试 数据 上 的 决定 系数 分 别 为 0. 60,0. 65 和 0. 69。 对 
图 7. 35 中 的 训练 数据 用 线性 回归 算法 得 到 的 线性 回归 模型 在 图 7. 35 的 测试 数据 上 的 决定 
系数 为 0.59。 对 比 线性 回归 的 结果 可 以 看 到 ,决策 树 回 归 模 型 与 线性 回归 模型 的 效果 较为 
接近 。 而 随机 森林 回归 模型 和 梯度 提升 决策 树 回 归 模 型 都 明显 优 于 线性 回归 模型 。 此 外 ， 
随机 森林 回归 模型 优 于 决策 树 回 归 模 型 。 梯 度 提升 决策 树 回 归 模 型 又 优 于 随机 森林 回归 模 
型 。 经 过 在 不 同 的 训练 数据 与 测试 数据 上 的 多 次 重复 实验 ,证 实 了 这 个 结论 的 稳定 性 。 这 
说 明 ,在 房价 预测 问题 上 ,梯度 提升 决策 树 回 归 算 法 优 于 线性 回归 算法 .决策 树 回 归 算 法 和 
随机 森林 回归 算法 。 
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fram sklearn.datasets import fetch california housing 
fram sklearn.model selection import train test split 

fram machine learning.lib.decision tree regressor import DecisionTreeRegressor 
franmechine learning.lib.randam forest regressor import RandamForestRegressor 
fram machine learning.lib.godt import GBDT 

fram sklearn.metrics import r2 score 


housing- fetch california housing() 

X- housing.data 

y- housing.target 

X train, X test, y train, y test-train test split(X, y, test size-0.5, ranim state- 0) 


tree- DecisionTreeRegressor (max depth- 5) 
tree.fit(X train, y train) 

y pred-tree.predict(X train) 

print ("tree ræ ()".format(get r2(y test, y pred))) 


forest- RandamForestRegressor (max depth- 5, num trees- 100) 
forest.fit(X train, y train) 

y pred- forest.predict(X test) 

print ("forest r2- ()".format(r2 score(y test, y pred))) 


gbdt- GBDT (mex depth- 5, num trees- 2) 
gbdt.fit(X train, y train) 

y. pred- didt. predict (X test) 

print ("godt x2- ()".format(get r2(y test, y pred))) 
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图 7.35 房价 预测 的 梯度 提升 决策 树 回归 算法 


通常 情况 下 ,在 决策 树 回归 算法 、 随 机 森林 回归 算法 和 梯度 提升 决策 树 回 归 算 法 这 3 类 
算法 之 间 并 不 存在 某 一 类 算法 总 是 优 于 其 他 类 算法 的 情况 。 例 如 ,对 例 7. 9 中 的 共享 单车 
问题 分 别 用 决策 树 回 归 算 法 、 随 机 森林 回归 算法 和 梯度 提升 决策 树 回归 算法 求解 ,得 到 的 结 
果 显 示 : 在 这 3 类 算法 中 ,随机 森林 回归 算法 的 预测 效果 最 好 。 由 此 可 见 ,在 实际 应 用 中 ， 
还 应 当 根据 具体 问题 及 数据 的 结构 特点 ,通过 实验 来 选择 最 合适 的 求解 算法 。 


小 结 


本 章 对 监督 式 学 习 的 决策 树 算法 作 了 详细 介绍 。 决 策 树 算法 十 分 灵活 , 既 适 用 于 回归 
问题 ,也 适用 于 分 类 问题 。 对 于 回归 问题 而 言 .线性 回归 算法 适用 于 处 理 标签 分 布 与 特征 之 
间 有 整体 统一 的 连续 关系 的 问题 ,而 决策 树 算法 更 适用 了 


F 处 理 标签 分 布 与 特征 之 间 是 局 部 


关系 的 问题 。 对 于 分 类 问题 而 言 ,Logistic 回归 算法 比较 适合 解决 类 别 之 间 是 线性 可 分 的 问 
题 , 而 决策 树 算法 能 够 用 于 类 别 边界 是 非 线 性 的 且 能 用 和 矩形 来 划分 特征 空间 的 问题 。 决 策 
树 算法 在 用 于 处 理 分 类 问题 时 ,其 目标 任务 既 可 以 是 概率 预测 任务 ,也 可 以 是 类 别 预测 任 
务 。 除 此 之 外 ,决策 树 模型 的 物理 意义 也 十 分 明确 ,可 以 用 文字 清晰 地 描述 整个 过 程 。 但 
是 ,由 于 无 法 对 目标 函数 进行 正则 化 ,因而 ,使 用 决策 树 算法 最 大 的 风险 是 它 可 能 出 现 过 度 
拟 合 。 限 制 树 的 深度 是 最 常用 的 预防 决策 树 算法 出 现 过 度 拟 合 的 方法 。 

CART 算法 是 训练 决策 树 模 型 最 常用 的 算法 之 一 。 本 章 中 通过 深度 为 0 和 1 的 决策 树 
BiU HIE T CART 算法 的 基本 原理 。CART 算法 是 一 个 贪心 算法 。 它 不 断 递 归 地 将 
数据 划分 成 越 来 越 小 的 区 域 。 在 递归 的 每 一 步 ,都 选取 一 个 特征 及 相应 阅 值 将 当前 区 域 一 
分 为 二 。 它 选取 特征 和 阔 值 的 原则 是 该 特征 及 阔 值 能 够 最 大 程度 地 降低 目标 函数 。 用 这 种 
数据 划分 方法 逐步 生成 一 棵 二 叉 树 。 对 决策 树 的 每 一 个 叶 节点 ,CART 算法 用 落 于 该 叶 节 
点 对 应 的 区 域 中 的 所 有 训练 数据 标签 的 平均 值 作为 模型 的 预测 值 。 完 成 模型 训练 后 ,对 于 
给 定 的 一 条 测试 数据 ,模型 将 根据 其 特征 值 ,从 决策 树 的 根 节点 开始 向 下 搜索 ,直至 决策 树 
的 一 个 叶 节点 。 该 叶 节点 中 的 预测 值 就 是 标签 的 预测 结果 。 

本 章 最 后 介绍 了 两 类 集成 算法 : 随机 森林 算法 与 梯度 提升 决策 树 算法 。 通 过 凝聚 一 组 
决策 树 的 力量 ,集成 算法 能 够 获得 比 单个 模型 更 强 的 预测 效果 。 最 后 应 当 指 出 ,集成 学 习 的 
思想 适用 于 机 器 学 习 中 的 众多 模型 ,并 不 仅 限于 决策 树 的 集成 。 


习题 


7.1 请 设计 一 个 深度 为 2 的 决策 树 模型 ,使 得 该 模型 在 图 7. 36 中 的 墨 渍 数据 上 的 预测 
结果 有 100% 的 准确 率 。 图 7. 36 中 的 每 个 点 的 坐标 (mm ,zs ) 即 为 特征 组 ,颜色 为 标签 值 。 


图 7.36 墨 渍 数据 采样 


7.2 dE h:(0.117— (0.119 —^h d 元 布尔 函数 。 请 设计 一 个 深度 不 超过 4& 十 1 的 决策 
树 来 表示 ho 
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7.3 在 随机 森林 算法 中 ,森林 中 树 的 棵 数 num_trees 和 每 棵 树 的 深度 max. depth 是 两 
个 重要 的 参数 。 当 一 个 随机 森林 算法 出 现 过 度 拟 合 时 ,应 当 如 何 调整 参数 num. trees 及 
max depth 来 缓解 过 度 拟 合 ? 

7.4 Gini 不 纯度 。 

在 一 个 & 元 分 类 问题 中 ,假设 S 是 一 组 训练 数据 。 式 (7. 12) 中 定义 了 kk 维 向 量 
Avg(S)。 其 中 ,Avg(S) 的 第 i 位 表示 S 中 属于 类 别 ; 的 数据 的 比例 。 由 此 可 定义 S 的 Gini 
不 纯度 为 

Gini(S) — 1 — | Avg(S)|* (7. 23) 

CD 请 证 明 : 4 S 中 数据 的 类 别 都 相同 时 ,Gini(S) 达 到 最 小 值 0。 当 S 中 含有 全 部 
个 类 别 的 样本 , 且 属 于 每 个 类 别 的 样本 数 均 为 |S| 从 时 ,Gini(S) 达 到 最 大 值 1 — 1/8. 

(2) 请 实现 以 Gini 不 纯度 作为 分 值 函 数 的 决策 树 分 类 的 CART 算法 。 

7.5 月 亮 数据 标签 预测 问题 。 

月 亮 数据 集 是 Sklearn 工具 库 提供 的 一 个 数据 集 。 它 常用 于 分 类 算法 与 聚 类 算法 的 实 
践 检验 。 图 7. 37 是 一 组 月 亮 数据 的 采样 。 图 中 的 每 一 点 都 表示 一 条 数据 。 其 中 ,坐标 
Gri sacs ) 为 特征 组 ,颜色 为 标签 值 。 
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图 7.37 月 亮 数据 采样 


图 7.38 是 生成 图 7. 37 中 数据 采样 的 程序 。 请 基于 图 7. 38 中 的 程序 分 别 实现 用 决策 
树 算法 与 随机 森林 算法 完成 对 标签 的 预测 任务 。 


fram sklearn.datasets import make moons 
import matplotlib.pyplot as plt 


X, y-meke moons(n samples- 1000, noise- 0.1) 
plt.scatter(X :, 0], X. :, 1], c- y, s- 10, amap-'rainbow') 
plt.show() 


1 
2 
3 
4 
5 
6 


7.88 生成 月 亮 数据 采样 的 程序 
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7.6 收入 预测 问题 。 

收入 预测 问题 的 任务 是 根据 一 个 人 的 背景 预测 其 收入 情况 。 这 实际 上 是 一 个 二 元 分 类 
问题 。 输 入 预测 的 数据 来 源 于 UCI 机 器 学 习 数 据 库 了 。 每 一 条 数据 包括 一 个 标签 ,表明 该 
样本 的 年 收入 是 否 超 过 5 万 美元 。 数 据 中 还 包括 14 个 特征 : 年 龄 (age)、 工 作 类 型 
Cworkclass) ,样本 代表 性 (fnlwgt) .教育 程度 (education) ,求学 年 数 (education_num) ,婚姻 
状况 (marital-status)、 职 业 属 性 (occupation)、 家 庭 关 系 (relationship)、 种 族 (race) ,性 别 
(sex) ,投资 收益 (capital-gain) ,投资 损失 (capital-loss) ,工作 强度 (hours-per-week) 以 及 国籍 
C(native-country) 。 

请 下 载 收 入 预测 的 数据 集 audlt. csv, 并 用 决策 树 算法 与 随机 森林 算法 完成 收入 预测 
任务 。 

7.7 波士顿 房价 预测 问题 。 

波士顿 房价 预测 问题 是 一 个 回归 问题 。 其 任务 是 预测 美国 波士顿 地 区 各 小 区 的 平均 房 
价 。 波 士 顿 房价 预测 问题 的 数据 集 已 经 集成 在 Sklearn 数据 库 中 。 数 据 集中 总 共有 506 条 
售 房 数据 。 每 条 数据 有 1 个 标签 , 即 房屋 售 价 。 每 条 数据 还 有 13 个 特征 : 小 区 周边 犯罪 率 
(CRIM) \ 房 屋 占 地 面积 (ZN) .小 区 周边 非 商业 用 地 面积 (INDUS) 查尔斯 河 指数 (CHAS)、 
环保 指标 (NOX) 房屋 房间 数 (RM) 、 房 龄 (AGE) .与 市 中 心 的 距离 (DIS)、 交 通 便利 指 数 
(RAD)、 地 产 税 (TAX)、 教 育 资 源 (PTRATIO)、 居 民 种 族 情 况 (B) 和 居民 收入 情况 
(LSTAT)。 图 7. 39 是 获取 数据 的 程序 。 请 基于 图 7. 39 中 的 程序 ,分 别 用 决策 树 算法 与 梯 
度 提升 决策 树 算法 完成 波士顿 房价 预测 问题 。 


1 fra sklearn.datasets import load boston 
2 X, y- load boston (return X y- True) 


HH 7.39 获取 波士顿 房价 预测 数据 的 程序 


7.8 AdaBoost 集成 算法 。 

提升 算法 通过 N 轮 循环 来 训练 一 个 集成 模型 。 在 每 轮 循环 中 ,训练 一 个 新 的 弱 模 型 来 
弥补 之 前 弱 模型 的 不 足 。 最 后 ,输出 这 NN 个 弱 模 型 预测 的 总 和 作为 提升 算法 的 输出 。 在 这 
类 算法 中 ,每 一 轮 的 弱 模 型 训练 都 基于 全 体 训 练 数 据 。AdaBoost 集成 算法 是 对 上 述 提升 算 
法 的 一 个 改进 。 它 的 命名 来 自 英文 Adaptive Boosting 的 缩写 。AdaBoost 集成 算法 的 思想 
是 : 在 每 一 轮 循环 中 选取 此 前 的 弱 模 型 预测 错误 的 数据 ,以 此 来 训练 新 的 弱 模型 。 这 样 一 
来 ,算法 就 能 专注 于 越 来 越 难 的 数据 点 ,而 不 必 为 简单 的 数据 点 “分 心 ”。 上 述 思想 是 通过 调 
整训 练 数据 的 采样 概率 来 实现 的 。 

具体 来 说 ,在 一 个 采用 {一 1,1} 标 签 形式 的 二 元 分 类 问题 中 , 设 H 是 一 个 弱 模 型 假设 。 
给 定 训练 数据 S — (Q0, y), (0 , y ue, G, y), 图 7. 40 中 的 算法 描述 了 


O 原 数 据 来 自 UCI 机 器 学 习 库 http://archive. ics. uci. edu/ml/datasets/Adult。 也 可 从 GitHub 网 站 的 本 书页 面 
https: //github. com/wangleil8/machine_learning 下 载 。 
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AdaBoost 算法 。 初 始 时 ,算法 均匀 地 设 定 每 条 训练 数据 的 权重 w。 随后 ,进行 N 轮 循环 。 在 
每 一 轮 循环 1 中 ,以 概率 vo; 选取 数据 (x? y? ) , 并 构成 一 个 S 的 子 集 S,。 然 后 ,基于 S, 训 
练 一 个 弱 模 型 h,。 接着 ,在 整 条 训练 数据 集 S 上 计算 模型 h, 预测 错误 的 概率 x,, 用 以 确定 及 
的 置信 和 度 aor BAK, a 就 越 小 , 即 模型 h, 的 置信 和 度 就 越 低 。 算 法 根据 模型 的 置信 和 度 a 调整 
训练 数据 采样 的 权重 w。 增加 预测 错误 的 样本 的 权重 , 且 降 低 预测 正确 的 样本 的 权重 。 最 
JA 3E Il hi so sot 的 以 置信 和 度 为 加 权 和 的 提升 模型 。 


Sample a subset S, Œ S according to w 
train h, € H using training data in S, 


r= D) wliy? 3 hG?)) 
各 
ET 
re 


fori = 1,2,-,m: 


xpi «wore 9 ey 


w 


"UTE 


N 
return h (x) — saf $ amo] 


7.40 AdaBoost 算法 描述 


取 弱 模型 假设 H 为 深度 不 超过 d. 的 决策 树 模型 ,请 以 此 实现 决策 树 的 AdaBoost 提升 
算法 。 
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第 8 章 神经 网 络 


人 类 许多 重大 科技 突破 的 灵感 都 源 于 大 自然 。 例 如 ,通过 研究 鸟 儿 的 飞行 方式 发 明了 
飞机 ,通过 探索 蝙蝠 的 夜 视 原理 发 明了 雷达 。 人 工 神 经 网 络 也 是 仿生 思想 在 机 器 学 习 中 的 
体现 。 人 工 神经 网 络 算法 是 一 个 模拟 人 类 神经 结构 的 机 器 学 习 算法 。 在 工程 与 学 术 界 ,也 
将 人 工 神经 网 络 简称 为 神经 网 络 。 

神经 网 络 模型 的 难 形 产生 于 1943 年 。 它 是 由 美国 的 神经 科学 家 沃 伦 ' 麦 卡 洛克 和 沃 
尔 特 。 皮 茨 基于 一 种 称 为 阔 值 逮 辑 的 算法 创造 的 计算 模型 。 一 些 早期 的 成 功 掀起 了 对 神经 
网 络 研究 的 热潮 。 然 而 ,伴随 着 数据 量 的 增 大 ,计算 机 有 限 的 数据 处 理 能 力 使 得 神经 网 络 逐 
渐 显 现 出 "力不从心 ”>。20 世纪 90 年 代 , 随 着 支持 向 量 机 等 较为 简单 的 机 器 学 习 算 法 的 出 
现 , 神 经 网 络 模型 一 度 淡 出 了 机 器 学 习 研 究 者 的 视野 。 近 年 来 ,计算 机 芯片 领域 的 高 速 发 展 
大 幅度 提高 了 计算 机 的 计算 能 力 , 这 使 得 训练 大 型 的 神经 网 络 模型 成 为 可 能 ,由 此 带 来 了 一 
系列 重大 突破 ,特别 是 基于 神经 网 络 的 深度 学 习 技 术 展示 出 其 前 所 未 有 的 威力 。 神 经 网 络 
又 重新 回 到 了 人 们 关注 的 中 心 。 

本 章 详 细 介绍 神经 网 络 算法 的 相关 内 容 。8. 1 节 介 绍 神经 网 络 的 基本 概念 ,包括 模型 
的 基本 结构 以 及 计算 方法 。8. 2 节 介 绍 反 向 传播 算法 ,该 算法 是 神经 网 络 中 最 重要 的 优化 
算法 之 一 。8. 3 节 介 绍 神经 网 络 的 具体 实现 ,由 此 可 以 加 深 对 反 向 传播 算法 的 理解 。8.4 节 
介绍 神经 网 络 的 TensorFlow 实现 。 本 章 的 内 容 也 是 第 9 章 的 深度 学 习 和 第 12 章 的 强化 学 
习 的 基础 。 


8.1 神经 网 络 基本 概念 


8.1.1 神经 网 络 模型 


神经 网 络 算法 是 模拟 人 类 神经 结构 的 一 个 机 器 学 习 算 法 。 图 8. 1 是 人 类 大 脑 皮层 的 神 
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经 分 布 示意 图 了 ?。 从 图 中 可 以 看 到 ,人 类 的 神经 呈 层 状 网 络 分 布 。 它 由 众多 脑 神经 元 构成 
每 个 神经 元 的 结构 如 图 8.2 所 示 。 


图 8.2 神经 元 结构 


每 个 神经 元 具有 3 个 最 重要 的 部 分 : 树 突 、 胞 体 和 轴 突 。 树 突 负 责 接收 从 其 他 神经 元 
传 来 的 信号 。 胞 体 对 所 有 树 突 输入 的 信号 进行 处 理 并 生成 一 个 输出 信号 。 轴 突 负责 将 胞 体 
生成 的 输出 信号 传送 至 与 其 相连 的 所 有 其 他 神经 元 的 树 突 。 通 过 将 神经 元 组 织 成 层 状 网 络 
结构 ,人 类 的 大 脑 能 够 接收 各 类 外 界 信息 并 经 过 层 层 加 工 之 后 做 出 反应 。 这 就 是 人 脑 工作 


的 基本 原理 。 


神经 网 络 算法 正 是 对 上 述 原 理 的 模拟 与 抽象 。 神 经 网 络 算法 将 图 8. 2 所 示 的 人 脑 神经 


元 结构 抽象 成 如 图 8. 3 所 示 的 计算 单元 。 


图 8. 3(a) 是 抽象 出 的 计算 单元 的 基本 结构 。 它 有 3 NER: On 个 权重 rw ue € 
R ; @ 偏 置 值 5ER ; 四 激活 函数 o: RR. Erben 个 权重 vi ,wz ，… DERE n 条 边 


之 上 ,每 一 条 边 表示 一 个 树 突 , 它 可 以 为 神经 元 输入 信息 。 图 8. 3(b) 显 示 了 计算 单元 的 ] 
作 原 理 。 设 神经 元 接 到 个 输入 xz; ,zs，,… ,zx,， 树 突 将 它们 传人 胞 体 。 胞 体 首先 计算 它们 自 


的 


加 权 和 > weiz, 十 6, 然后 将 激活 函数 作用 在 加 权 和 上 .最 后 ,将 c( Dons 十 5) 作为 神经 元 


0 片 来 自 维基 百科 词 条 https://en. wikipedia. org/wiki/Cerebral_cortex, 由 西班牙 神经 科学 家 Santiago Ramon 


Cajal 绘制 。 
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图 8.3 神经 网 络 算法 计算 单元 的 基本 结构 


的 输出 由 轴 突 传 出 。 
在 图 8.3 所 示 的 计算 单元 中 ,可 以 认为 计算 加 权 和 是 胞 体 对 信息 的 综合 ,而 胞 体 通过 激 
活 函数 对 信息 进行 处 理 与 转化 。 激 活 函 数 是 对 人 脑 神经 元 功能 的 模拟 。 以 下 是 一 些 常 用 的 
例 8.1 Identity 激活 函数 有 如 下 形式 : 
identity(x) = x (8.1) 
Identity 激活 函数 对 信息 不 做 任何 变换 而 直接 输出 ,其 功能 是 如 实地 传递 信息 。 
例 8.2 ReLU 激活 函数 有 如 下 形式 : 
relu(x) = max{0,x} (8.2) 
该 函数 的 名 字 是 英文 Rectified Linear Unit( 修 正 线性 单元 ) 的 缩写 , 它 的 函数 图 像 如 图 8. 4 
所 示 。ReLU 激活 函数 只 激活 取 值 为 正 数 的 信息 ,用 于 模拟 人 脑 过 滤 无 用 信息 的 功能 。 


1.0 
0.8 
0.6 
0.4 


0.2 


0.0 
-1.00 -0.75 -0.50 -0.25 0.00 0.25 0.50 0.75 1.00 
图 8.4 ReLU 激活 函数 


例 8.3 Sigmoid 激活 函数 有 如 下 的 形式 : 

1 
ILS RM 
其 函数 图 像 如 图 8. 5 所 示 。Sigmoid 激活 函数 取 值 在 [0.1] 区 间 , 它 的 功能 是 随 着 信息 强度 


sigmoid(x) = (8,3) 
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的 增强 而 平滑 地 激活 信息 。 


1.0 
0.8 
0.6 
0.4 
02 
94 
-100 -75 -5.0 -25 00 25 50 75 100 
图 8.5 Sigmoid 激活 函数 


例 8.4 Tanh 激活 函数 有 如 下 形式 ， 


tanh(x) = 


e—e* 
ee™ 
该 函数 的 图 像 如 图 8.6 所 示 。Tanh 激活 函数 的 功能 与 Sigmoid 激活 函数 类 似 ,但 其 取 值 区 
间 为 [一 1,1]。 它 相对 于 原点 对 称 , 有 时 能 简化 计算 。 
以 下 是 一 个 神经 元 计算 的 示例 。 
例 8.5 考察 图 8.7 中 的 神经 元 计算 单元 。 计 算 单元 的 两 条 边 的 权重 分 别 为 wi — 1I 
wz 一 3, 偏 置 值 0 王 一 4, 激 活 函 数 为 ReLU。 


(8.4) 


输入 


xj-l 


w73 


-1.00 
-1.00 -0.75 -0.50 -0.25 0.00 0.25 0.50 0.75 1.00 x52 
图 8.6 Tanh 激活 函数 图 8.7 神经 元 计算 示例 


在 图 8.7 中 , 设 输入 为 x1 — 1.29 — 2, I] wr d^ ws x; 3-5 — 1. Ami H relu(1) 一 1。 
类 似 地 , 设 输入 为 zj 二 一 1,zs 二 1, 则 wizi 十 wzzxs 十 5 二 一 2, 因 而 输出 relu( 一 2) 一 0。 

神经 元 计算 单元 之 间 可 以 传输 信息 , 即 , 一 个 神经 元 的 输出 可 以 作为 其 他 神经 元 的 输 
入 。 通 过 这 样 的 方式 .可 以 将 一 组 神经 元 计算 单元 组 合 在 一 起 完成 信息 的 处 理 与 传递 任务 。 
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神经 网 络 模型 就 是 由 一 组 神经 元 相互 连接 所 构成 的 。 受 图 8. 1 中 的 大 脑 皮层 神经 网 络 结构 
的 启发 ,在 神经 网 络 模 型 中 ,将 模型 设置 为 神经 元 的 层 状 结构 。 其 思想 是 : 由 每 一 层 完成 一 
道 信息 的 过 滤 与 处 理 , 经 过 层 层 提炼 得 到 最 后 的 输出 。 图 8. 8 是 神经 网 络 模型 的 示意 图 。 

神经 网 络 的 每 一 层 都 由 神经 元 组 成 , 且 每 一 层 的 神经 元 个 数 可 以 不 同 。 每 一 层 中 的 神 
经 元 都 与 其 上 一 层 中 的 每 一 个 神经 元 相连 。 给 定 守 个 输入 zi,zz ,zx, ,神经 网 络 第 1 层 中 
的 每 个 神经 元 都 接收 这 个 输入 并 给 出 相应 的 输出 ,然后 第 2 层 的 每 个 神经 元 将 第 1 层 神 
经 元 的 输出 作为 输入 。 一 般 情况 下 ,将 第 i 层 的 神经 元 的 输出 作为 第 i 十 1 层 的 神经 元 的 输 
入。 如 此 层 层 传递 ,直至 最 后 一 层 。 若 最 后 一 层 含有 个 神经 元 , 则 最 后 一 层 的 这 上 个 神经 
元 的 输出 即 为 整个 神经 网 络 模型 的 输出 ,神经 网 络 的 最 后 一 层 也 因此 称 为 输出 层 。 其 他 各 
层 都 称 为 隐藏 层 。 

从 以 上 的 描述 中 可 以 看 出 ,同一 层 的 神经 元 都 有 相同 数量 的 输入 。 通 常设 同一 层 的 神 
经 元 有 相同 的 功能 ,因而 同一 层 的 神经 元 具有 相同 的 激活 函数 。 具 体 来 说 ,在 含有 nn 个 输入 
和 尺 个 层 的 神经 网 络 中 , 设 第 r 层 含有 m, 个 神经 元 (7 二 1,2,…,R), 并 记 mo 二 n。 神 经 网 络 
的 每 一 层 都 由 两 组 参数 值 来 表示 。 第 ~ 层 的 两 组 参数 值 如 下 : 

。 一 个 m, Xm BURÓBPE Wu WO 中 的 元 素 双 久 表 示 第 ~ 层 的 第 i 个 神经 元 与 第 

r — AJ RES j 个 输出 之 间 的 边 所 带 的 权重 (i 一 1,2,… my;j 二 1,2,*…** ,m1)。 

。 一 个 m, 维 偏 置 向 量 4” 。 其 分 量 b"” 表 示 第 rr 层 中 第 i 个 神经 元 的 偏 置 值 (i==1,2,… ,mm )。 

如 图 8.9 所 示 , 用 wv“? 表示 第 r 一 1 层 中 所 有 神经 元 的 输出 构成 的 列 向 量 。 设 第 7 层 
的 激活 函数 为 a”, 则 第 r 层 的 第 i 个 神经 元 输出 为 

v? =P p wp? HOP)» i-12.2-em. (8.5) 


1<j<m,_| 


(r-1) 
v 


(r-1) 


X, e 
30 第 R 层 (输出 层 ) ma 
第 1 层 第 一 1 层 
图 8.8 神经 网 络 模型 示意 图 8.9 神经 网 络 第 r 层 的 输入 v” "与 输出 v” 
为 了 简化 记号 ,定义 

sD — WO yc» pb? (8.6) 

则 第 ~ 层 中 所 有 神经 元 的 输出 可 表示 为 
v? 一 am (s? ) (8.7) 


H oO EE s? EEH oP (s? ELH of" XE s? B9 8E— 1 2r tC AM FE HI Je 130 B] 
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向 量 。 

综 上 所 述 ,神经 网 络 模型 可 描述 如 下 : 给 定 一 个 R 层 的 神经 网 络 模 型 
神经 网 络 , 设 第 -~ 层 的 权重 矩阵 、 偏 置 向 量 和 激活 函数 分 别 | wO = 
HWP bP .am ,r 二 1,2,…,R。 图 8.10 描述 了 神经 网 络 对 | forr=1,2,*…,R: 


任意 的 输入 x 计算 输出 wv 的 模型 。 in e M 
v =P (49) 
8.1.2 神经 网 络 算法 描述 dnd 


神经 网 络 算法 是 模型 假设 为 神经 网 络 模型 的 经 验 损失 图 8. 10 神经 网 络 模型 
最 小 化 算法 。 它 既 可 以 应 用 于 回归 问题 ,也 可 以 应 用 于 分 类 问题 。 

一 个 神经 网 络 模型 可 以 分 成 两 部 分 : 网 络 结构 与 模型 参数 。 网 络 结构 包括 层 数 ,每 一 
层 中 神经 元 的 个 数 和 每 一 层 的 激活 函数 。 神 经 网 络 的 层 数 和 每 一 层 中 的 神经 元 个 数 通常 是 
根据 经 验 或 多 次 试验 来 确定 的 。 模 型 参数 包括 每 一 层 的 权重 矩阵 W” 和 偏 置 向 量 5h”。 对 
于 取 定 的 网 络 结构 ,不 同 的 模型 参数 对 应 的 神经 网 络 模型 是 不 同 的 。 在 对 实际 问题 应 用 神 
经 网 络 算法 时 , 先 由 算法 设计 者 设 定好 网 络 结构 ,然后 由 神经 网 络 算法 计算 基于 此 网 络 结构 
的 最 优 模型 参数 。 

在 含有 nn 个 特征 的 回归 问题 中 ,神经 网 络 回 归 算 法 的 模型 假设 是 一 个 含有 个 输入 以 

及 1 个 输出 的 网 络 结构 。 

设 h 是 一 个 具有 如 图 8. 11 所 示 的 结构 的 神经 网 络 模型 。 对 任意 特征 组 x= Gr ease 
a, Eon ears tt MES hi 的 个 输入 ,相应 的 输出 v 就 作为 模型 h 对 x 的 标签 预测 。 神 经 
网 络 回归 算法 的 损失 函数 是 均 方 误差 。 算 法 的 任务 是 训练 模型 参数 来 最 小 化 均 方 误差 。 
图 8. 12 是 算法 的 描述 。 


输入 aum BRIE 
Ri O 
输出 层 
O 
D. 曲 - 昌 9 o 
"e O 
Æ 8.11 回归 问题 的 神经 网 络 模型 
神经 网 络 回归 算法 
样本 空间 XER 


输入 : m 条 训练 数据 S={ (x9 y? ) (a0 y? ) e (a0 ,ym )} 
模型 假设 H: 一 个 合用 个 输入 以 及 1 个 输出 的 取 定 的 网 络 结构 
任务 : 

siii (B2? )— y? )* 


heH m L3 


图 8.12 神经 网 络 回归 算法 描述 
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HFEA n RIEK k 元 分 类 问题 ,神经 网 络 分 类 算法 的 模型 假设 是 含有 个 输入 及 
个 输出 的 网 络 结构 加 上 Softmax 变换 。 具 体 来 说 ,对 特征 组 x 二 Qn cst, ), 设 神经 网 
络 输出 为 v= (vi ,vs，… ,vi )。 由 于 求解 元 分 类 问题 的 目标 是 获得 具有 特征 组 x 的 样本 属 
于 每 一 个 类 别 的 概率 预测 ,因此 ,为 了 保证 神经 网 络 的 & 个 输出 符合 概率 的 性 质 ,还 需要 对 
my 内 进行 Softmax 变换 : 


um Sa i— 1.2. 
因此 ,定义 模型 的 输出 为 
BG. Se LET E (8.8) 
uà (Sa Je Ye 
由 式 (8. 8) 定 义 的 h(x) 的 每 一 个 分 量 都 在 [0,1] 区 间 取 值 , 且 
E.g 
i=1 e” 
它们 分 别 表 示 具 有 特征 组 x 的 样本 属于 每 一 个 类 别 的 概率 ,如 图 8. 13 所 示 。 
a m Wi m E 
x Os oftmax aid 
,:9:9-90 98 5 7 
. © Q^ i 


图 8.13 k 元 分 类 问题 的 神经 网 络 模型 


神经 网 络 分 类 算法 的 目标 函数 是 元 交叉 粹 。 算 法 的 任务 是 训练 模型 参数 来 最 小 化 
元 交叉 粹 。 相 应 的 算法 描述 见 图 8. 14。 


神经 网 络 分 类 算法 

样本 空间 XER ,标签 空间 YS{0,1)* 

输入 : m 条 训练 数据 S — ((xX y Je (xP Ly? ) eL (x? Ly )} 

模型 假设 H: 含有 个 输入 以 及 k 个 输出 的 取 定 的 网 络 结构 加 上 Softmax 变 
TUE: 


EE a 
n mn »logh(x®™ )) 


图 8.14 神经 网 络 分 类 算法 描述 
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8.2 神经 网 络 优化 算法 


与 线性 回归 Logistic 回归 等 监督 式 学 习 算法 相同 ,神经 网 络 的 回归 算法 和 分 类 算法 都 
是 经 验 损失 最 小 化 算法 ,相应 的 优化 问题 也 都 是 无 约束 优化 问题 。 针 对 这 样 的 优化 问题 ,可 
以 考虑 用 第 4 章 中 介绍 的 随机 梯度 下 降 算法 进行 优化 。 但 是 需要 注意 到 : 线性 回归 等 算法 
的 优化 目标 函数 是 凸 函 数 , 因 此 随机 梯度 下 降 算 法 一 定 会 收敛 到 全 局 最 优 解 。 而 神经 网 络 
算法 的 目标 函数 往往 不 是 关于 模型 参数 的 凸 函数 ,所 以 随机 梯度 下 降 算法 可 能 收敛 到 局 部 
最 优 解 。 尽 管 如 此 ,在 大 多 数 实际 应 用 中 ,神经 网 络 的 局 部 最 优 可 以 近似 全 局 最 优 。 所 以 随 
机 梯度 下 降 算 法 依然 是 十 分 实用 的 神经 网 络 优化 算法 。 

在 神经 网 络 算法 中 ,给 定 一 个 RR 层 的 神经 网 络 模型 。 设 当前 模型 参数 为 W” por 
1.2,-.R, H L 表示 模 型 在 训练 数据 (x,y) 上 的 损失 , 则 工 是 关于 网 络 输 出 层 的 输出 v® 
的 函数 。 具 体 来 说 ,在 回归 问题 中 ， 

Lie y= (v9 — y)* (8.9) 


而 在 分 类 问题 中 ， 
L (v? )— (y.log(softmaxC v? ))) (8. 10) 
由 式 (8.7) 知 v 中 是 ve ?了 WE Jn b FE PR. Mo CR— 1) X J& v? We fg pP? 
的 函数 。 如 此 不 断 递 推 ,最 后 可 知 工 与 模型 参数 WO pO WO? Lp? ve WP ,0 之 间 存 在 
复合 函数 的 关系 。 随 机 梯度 下 降 算 法 在 每 一 轮 循环 中 对 随机 选取 的 训练 数据 (x,y) 计 算 其 
损失 函数 的 梯度 ,并 沿 着 梯度 的 反方 向 调整 模型 参数 的 取 值 。 如 果 要 用 随机 梯度 下 降 算 法 ， 


则 需要 对 权重 垂 阵 WO 计算 55 ,以 及 对 偏 置 向 量 io TERES C jm 12e mca si 
vo mr RR 
图 8.15 是 神经 网 络 的 随机 梯度 下 降 优化 算法 。 算 法 的 模型 假设 为 一 个 结构 取 定 的 R 


层 神 经 网 络 。 用 随机 梯度 下 降 算 法 来 训练 网 络 参数 W"” b^ ,r= 二 1,2,…,R。 算 法 用 随机 数 
来 初始 化 每 个 权重 矩阵 W” ,并 将 每 一 个 偏 置 向 量 b” 初 始 化 成 全 0 向 量 (r 二 1,2,…,R)。 


神经 网 络 的 随机 梯度 下 降 算 法 
for each r.i.j: 
wi = random number 
bP =0 
for t—1.2.*.N: 
Sample(x.y) —S 
v — hy V (x) 


( aL aL 


Iwp bP 


) — BackProp( v'*! , y) 


for each r.i.j: 


Æ 8.15 神经 网 络 的 随机 梯度 下 降 算 法 
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aL 
Auf? 


9L 
bí? eb BUE CI 


wP wf? — 
ug kå 


return hw,» 


图 8.15 (4D 


随机 梯度 下 降 算法 有 两 个 算法 参数 : 循环 的 轮 数 N 和 学 习 速 率 7。 在 每 一 轮 循 环 中 ， 
api 条 训练 数据 (x,y)。 首 先 计算 当前 参数 对 应 的 神经 网 络 模型 bw 在 x 上 的 
输出 wv。 然后 ,调用 反 向 传播 算法 BackProp. fd v Jl y 3E i 5€ L 对 各 个 参数 的 梯度 。 
oe ene 个 参数 的 梯度 反方 向 以 7 为 步 长 更 新 参数 值 。 按 照 指定 搜 
索 步 数 进行 N 轮 循环 之 后 ,随机 梯度 下 降 算 法 返回 最 终 的 模型 。 

图 8. 15 的 随机 梯度 下 降 算法 在 梯度 计算 时 用 反 向 传播 算法 BackProp 来 计算 神经 网 络 
模型 各 参数 的 梯度 。 以 下 详细 介绍 反 向 传播 算法 BackProp 的 原理 。 

先 通过 一 个 单 层 的 网 络 结构 的 梯度 计算 来 os 
体会 反 向 传播 算法 。 

例 8.6 在 一 个 回归 问题 中 ,考虑 如 图 8. 16 
所 示 的 神经 网 络 。 这 个 神经 网 络 只 有 一 层 。 由 “ 
于 要 求解 的 是 回归 问题 ,因此 ,神经 网 络 只 有 一 。 C 
个 输出 。 从 而 权重 矩阵 W 是 1X» fidt ox 
W- Cur ,wo，… ,rw,)。 用 5 表示 偏 置 值 。 图 8.16 例 8.6 回归 问题 的 神经 网 络 

随机 选取 一 条 训练 数据 (x,y)。 模 型 的 输入 
是 特征 组 x 二 (xi,xs，… ,zx,)。 输 出 为 


v=o È wxitb) 


o=o (O ett) (8.11) 
模型 在 (x,y) 上 的 损失 为 
L—G—yt- (e( Sm --8)— 9" (8.12) 


BU ISO L 对 各 参数 的 偏 导数 计算 如 下 。 先 计算 了 。 根 据 求 导 的 链 式 法 则 ,有 


2L 9L dv 


zm us 2; (8.13) 
再 由 式 (8. 12) 有 
L (8. 14) 
9v 
由 wv 的 表达 式 (8.11) 有 
P diss 
zm =ø (sr; (8. 15) 
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中 , s= 3 74 Hb. 将 式 (8.14) 和 式 (8.15) 代 入 式 (8.13) 可 以 得 到 
t-1 


2L 
Bor 


=2(v—y)o (sr; j-—1.2.-.n (8. 16) 


类 似 地 ,可 以 算出 


8L 3L 3e ar sir 
3b æ 3p ETIN Cs) (8.17) 


以 下 介绍 一 般 情形 下 的 反 向 传播 算法 。 用 上 表示 当前 模型 在 取 定 训练 数据 (x,y) 上 的 
经 验 损 失 。 反 向 传播 算法 的 任务 是 计算 经 验 损 失 工 对 权重 和 矩阵 W 的 梯度 。 
如 图 8. 9 所 示 ,ws 是 计算 第 r 层 第 ;个 神经 元 的 输出 vi 的 必要 参数 : 

vf? — g(sf? )— o(wh vj UB ae Dv) (8. 18) 


tÉj 
式 中 ,o==o" 是 第 r 层 的 激活 函数 。 而 vi? 的 值 将 依次 影响 第 7 十 1,r 十 2,…,R 层 的 输出 
由 此 可 见 ,L 与 w 久 之 间 有 间接 的 函数 关系 。 式 (8. 18) 就 是 二 者 之 间 的 纽带 。 根 据 链 式 法 
则 ,有 


aL _ 3L 9 
Twp aur y Twp (8.19) 
并 且 由 式 (8.18) 可 得 
9 o r 
Top = GP (8. 20) 


由 此 可 见 ,5 只 需 计算 出 后 (5 ,就 可 以 结合 式 (8. 20) 得 ! ne p 


Wiener eene sun. Pee ipei ni 从 图 8.9 上 
这 相当 于 将 计算 * 边 ”的 梯度 转化 成 为 计算 “点 ”的 梯度 。 为 了 简化 记号 ,定义 
o^ ( DENN Ly r—].22.seR (8:21 


aw? "29? a I 
反 向 传播 算法 用 链 式 法 则 依次 计算 8 ,8 eom, 
算法 的 初始 步骤 就 是 计算 6" 。 无 论 在 回归 问题 中 还 是 在 分 类 问题 中 ,L 对 网 络 输出 
vC? 的 偏 导数 都 有 明确 的 表达 式 。 
。 在 回归 问题 中 ,根据 式 (8.9) 有 


FIL 一 了 = 一 2(zm — y) (8. 22) 
。 在 分 类 问题 中 ,通过 对 式 (8. 10) 计 算 导 数 ,可 以 得 到 
à 一 s = softmax( v? ) — y (8. 23) 


反 向 传播 的 思想 是 : 将 6 作为 第 R 层 的 “ 反 向 ”输入 ,随后 层 层 传播 回 输入 层 。 基 于 第 
r 层 的 反 向 输入 8" 用 链 式 法 则 来 计算 6” 了”。 如 此 递 推 计算 ,直至 算出 8 时 为 止 ,如 图 8. 17 
所 示 。 
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设 在 神经 网 络 的 第 ~ 层 已 经 计算 出 $” 一 一 一 接 下 来 要 计算 第 ~ 一 1 层 的 6?, 即 要 


$E" 2 的 每 一 个 分 量 8 > 。 从 图 8. 18 可 以 直观 地 理解 8 一 ”的 计算 过 程 
H-A 第 " 层 


o o o^ 
第 1 层 第 / 层 第 R 层 
图 8.17 反 向 传播 递 推 过 程 示意 图 图 8.18 从 6" 推导 6” 


考虑 第 r+ 层 的 第 i 个 神经 元 ,根据 式 (8.5), 有 


v? 一 - c (s? )= o (w^ vf" 3 Dwpo e 4f?) (8.24) 
uj 
因此 ,vi 关于 wv” ”的 偏 导数 有 如 下 形式 : 
9 o " " 
aem = GP yw (8. 25) 


根据 链 式 法 则 ,结合 式 (8. 25) 可 得 


i JL 2L Ivi / 

(Cr 一 1) z Cr) LO [C] E 

9j Jor a 25 co Jv m D P»: ' (s? yy. j= 1,2, ,me 
j i i 


Iv! 


(8. 26) 
式 (8. 260 MÆ Bc n] fed SE PETF 07 1E $0 的 基本 公式 。 
定义 c ! (sea — (CA (09) so" GP seo (58 997 T 定义 d? He (s? ) 55? 的 哈达 玛 n] 
(附录 A 的 定义 A. 1. 8): 


d? 一 Sm。 oa (s? ) (8. 27) 
用 式 (8.27) ,可 以 将 式 (8. 26) 表 达成 向 量 的 形式 : 
8 = WP Tqo (8. 28) 


在 算法 计算 出 初始 值 8™ 之 后 ,通过 式 (8. 28) T AJAR EO TE TEL 87,97 P Lees, 
l- iaa 

完成 上 述 对 “点 ”的 梯度 计算 之 后 , 反 向 传播 算法 开始 计算 对 “ 边 ” 的 梯度 。 在 图 8. 9 中 ， 
考察 连接 第 p 层 的 第 i 个 神经 元 和 第 r 一 1 层 中 的 第 7 个 神经 元 的 边 。 边 上 的 权重 值 为 


vf? , 反 向 传播 算法 要 计算 。 将 6 和 式 (8.20) 代 入 式 (8. 19) ,就 得 到 
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a z d ! ad — Po (s? jog? (8. 29) 
同样 ,也 可 以 将 式 (8. 29) 表 达成 更 加 紧凑 的 向 量 形式 。 定 义 m, Xm, EE 
-证 - (32) (8. 30) 
可 以 将 式 (8. 29) 写 成 
ami; — dO we» po qup R (8.3) 
类 似 地 ,可 以 得 到 损失 函数 工 关 于 第 r 层 的 偏 置 向 量 b"” 的 偏 导数 : 
ut —d? r=1,2,=,R (8. 32) 


在 图 8. 19 中 ,用 以 向 量 形式 表示 的 式 (8. 28) 3€ (8. 31) 以 及 式 (8. 32) 来 描述 反 向 传播 
算法 , 既 简 捷 又 清晰 。 


反 向 传播 算法 
BackProp( v ,y) : 


z =d” uc-DT 


3w” 


à» -yorqo 
aL 


aL 
WO mo r0bieR 


return 


图 8.19 反 向 传播 算法 


8.3 神经 网 络 算法 实现 


神经 网 络 模型 是 由 一 系列 神经 元 层 组 成 的 。 在 神经 元 层 中 需要 记录 以 下 3 个 信息 : 层 
中 神经 元 的 激活 函数 .权重 矩阵 和 偏 置 向 量 。 

首先 介绍 两 个 常用 的 激活 函数 Indentity 和 ReLU 的 实现 。 在 例 8. 1 与 例 8. 2 中 分 别 
定义 了 激活 函数 Indentity 和 ReLU。 它 们 的 算法 描述 见 图 8. 20。 其 中 ,每 个 激活 函数 要 实 
现 两 个 成 员 函 数 。 第 一 个 成 员 函 数 是 value, 用 于 计算 激活 函数 值 。 在 正 向 计算 神经 网 络 的 
输出 时 需要 用 到 这 个 激活 函数 值 。 第 二 个 成 员 是 derivative, 用 于 计算 激活 函数 的 导数 值 。 
在 用 反 向 传播 算法 计算 梯度 时 需要 用 到 这 个 激活 函数 的 导数 值 。 
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machine learning.lib.nn activators 
1 class Identityhctivator: 
def value (self, s): 
retum s 


2 

3 

4 

5 def derivative (self, s): 
6 retum 1 
T 

8 

9 


class ReILIRCctivator: 
œf value (self, s): 
10 retum np.maximm(0, s) 
11 
12 def derivative (self, s): 
13 retum (s> 0) .astype (np.int) 
图 8.20 激活 函数 


接 下 来 ,图 8. 21 中 的 类 Layer 是 对 神经 元 层 的 实现 。 其 中 第 4 一 9 行 的 构造 函数 指定 
每 个 神经 元 的 输入 个 数 n_input、 层 中 的 神经 元 数 n_output 以 及 层 的 激活 函数 activator。 激 
活 函 数 的 默认 值 是 IdentityActivator。 在 第 5 行将 指定 的 激活 函数 存储 成 Layer 类 的 成 
员 。 第 6 行将 偏 置 向 量 5b 初 始 化 成 全 0 向量。 在 第 7、8 行 初始 化 权重 和 矩阵 W。 与 偏 置 向 
量 不 同 ,不 能 将 权重 矩阵 初始 化 成 全 0 矩阵 。 这 ar 初始 化 成 全 0 的 W 会 导致 该 层 的 
每 个 神经 元 都 有 相同 的 输出 ,这 就 等 同 于 整 层 只 个 神经 元 。 由 此 将 影响 神经 网 络 的 
预测 效果 。 在 图 8. 21 ti et 先 按 式 (8. 337 计 算 ~ 


的 值 ; 
| 6 
一 eSa 
n input +n_output Kems 


然后 ,将 权重 矩阵 的 每 一 个 元 素 初 始 化 成 [一 ~, 门 区 间 的 一 个 随机 数 。 这 样 的 初始 化 方法 被 
称 为 Xavier 初始 化 。 实 践 表 明 这 样 的 随机 性 对 神经 网 络 的 训练 十 分 有 利 。 算 法 的 第 9 行 生 
成 一 个 Layer 类 的 成 员 outputs, 用 以 记录 这 层 神 经 元 的 输出 。 

第 11—14 行 的 forward 函数 的 功能 是 对 给 定 的 输入 inputs ,计算 层 中 神经 元 的 输出 值 ， 
实现 的 是 式 (8.6) 与 式 (8.7)。 第 12 行将 inputs 记录 成 Layer 类 的 成 员 ,为 将 来 的 反 向 传播 
算法 做 准备 。 第 13 行 计 算式 (8.7) 中 的 加 权 和 。 第 14 行 中 计算 激活 函数 在 加 权 和 上 的 取 
值 作 为 神经 元 输出 。 

第 16 一 22 行 实现 反 向 传播 算法 back_propagation。 第 17 行 计 算式 (8. 27) ;第 18 行 实 
现 式 (8.28) ;第 19、20 行 实现 式 (8. 31) 及 式 (8. 32) ,由 此 计算 参数 的 梯度 ;第 21,22 行 沿 梯 
度 反方 向 更 新 参数 值 。 
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machine learning.lib.nn layers 


import numpy as np 


1 

2 

3 class layer: 

4 def — init — (self, n ipt, n output, activator= IœntityActivator ()) : 
5 self.activator- activator 

6 self.b-rp.zeros((n output, 1)) 

7 r-rp.sqrt (6.0/ (n input +n output)) 

8 Self.W —np.random.uniform(- r, r, (n output, n input)) 

9 Self.outputs- np.zeros((n output, 1)) 


1 def forward(self, inputs): 


12 self.inputs- inputs 
13 self.sums= self.W.dot (inputs) self.b 

14 Self.outputs- self.activator.value (self.sums) 

15 

16 defbeck propagation (self, delta in, learning rate): 
17 dŒ self.activator.derivative (self.sums) * delta in 
18 self.delta out- self.W.T.dot (d) 

19 Self. W grad- d.dot (self.inputs.T) 

20 self.b grad-d 

21 self.W- = leaming rate* self.W grad 

2 self.b- = leaming rate* self.b grad 


图 8.21 神经 元 层 的 算法 实现 
为 了 运行 随机 梯度 下 降 算 法 ,还 需 指定 损失 函数 。 图 8. 22 实现 的 是 回归 问题 的 损失 函 
数 MSE 和 分 类 问题 的 损失 函数 SoftmaxCrossEntropy。 与 激活 函数 类 似 ,这 两 个 类 各 有 两 
个 成 员 函 数 , 分 别 是 计算 损失 函数 值 的 value 函数 和 计算 导数 的 derivative. 


| 
: 


import numpy as np 


class MÆ: 
def value (self, y, v): 
retum (v-y)* *2 


def derivative (self, y, v): 
retum 2* (v-y) 


cO 0 - O0 OQ A UInu-c 


图 8.22 神经 网 络 模型 的 损失 函数 
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10 def sofbmax(v) : 


1 e-np.exp(v) 

12 s- e.sum(axis- 0) 

13 fori in range (len(s)): 
14 didi 

15 retum e 

16 


17 class SoftmaxCrossEntropy: 

18 def value (self, y, v): 

19 p- softmax (v) 

20 retum- (y* np.log(p)) .sum() 


22 def derivative(self, y, v): 
23 p= softmax (v) 
24 retunp-y 


图 8.22 (8b 


有 了 神经 元 层 和 损失 函数 之 后 ,就 可 以 构造 一 个 完整 的 神经 网 络 。 在 图 8.23 中 描述 了 
类 NeuralNetwork。 神 经 网 络 中 的 层 和 损失 函数 都 由 构造 函数 传人 ,这 样 可 以 使 算法 设计 
者 在 类 外 指定 灵活 的 网 络 结构 和 损失 函数 。 而 NeuralNetwork 类 只 负责 运行 随机 梯度 下 降 
算法 和 反 向 传播 算法 来 对 指定 的 结构 寻找 最 优 参数 。 

图 8. 23 中 第 8 一 14 行 的 forward 函数 对 给 定 的 输入 计算 当前 参数 所 对 应 的 神经 网 络 的 
最 终 输出 。 第 10 行将 input 的 初始 值 设 为 输入 x, 随 后 层 层 传递 。 第 12 行 调用 Layer 类 的 
成 员 函 数 forward ,计算 当前 层 的 输出 ,并 将 输出 layer. outputs 作为 下 一 层 的 输入 ,直至 最 
后 一 层 。 


machine learning.lib.neural network 

d import numpy as np 

2 

3 class NeuralNetwork: 

4 def | init (self, layers, loss): 
5 self.layers- layers 

6 self.loss- loss 

E 

8 def forward(self, x) 

9 layers- self.layers 

10 inputs-x 

1l for layer in layers: 

12 layer.forward (inputs) 


图 8.23 神经 网 络 算法 
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13 inputs- layer.outputs 

14 retum inputs 

15 

16 def back propagation(self, y, outputs, learning rate): 

dg delta in-self.loss.derivative (y, outputs) 

18 for layer in self.layerd ::- 1]: 

19 layer.back propagation(delta in, learning rate) 
20 delta in-layer.delta out 

21 

2 def fit(self, X, y, N, leaming rate): 

23 for t in range (N): 

24 i-np.randam.randint (0, len(X)) 

25 outputs- self.forward (4 i] .reshape (- 1,1)) 

26 self.back propegation (y. i] .reshape (~ 1,1), outputs, leaming rate) 
27 

28 def predict (self, X): 

29 y 

30 for i in range(len(Q): 

a v= self.forward (X i] .reshape (- 1,1)) .reshape(- 1) 
a2 y-append (v) 

33 retum rp.array (y) 


图 8.23 ( 续 ) 
第 16 一 20 行 实现 反 向 传播 算法 。 第 17 行将 初始 的 梯度 delta_in 设 为 损失 函数 对 网 络 
输出 的 导数 ,对 应 于 式 (8.21) 中 的 SP =L ;第 1820 行 通过 调用 Layer 类 的 成 员 函 数 


DucRD“ 
back_propagation 层 层 反 向 传播 来 计算 857» ,84 2 e.a, 

第 22 一 26 行 实现 模型 训练 的 fit 函数 。 其 输入 是 一 组 训练 数据 。 在 fit 函数 中 进行 N 
轮 随机 梯度 下 降 搜索 。 在 每 一 轮 中 ,第 24 行 随机 选取 一 条 训练 数据 。 随 后 ,第 25 行 首先 调 
用 forward 函数 正 向 计算 网 络 的 输出 。 第 26 行 再 调用 back propagation 计算 反 向 传播 梯 
EE ,并 对 参数 进行 梯度 下 降 调 整 。 

在 第 28 一 33 行 实现 了 predict 函数 ,用 于 返回 神经 网 络 的 输出 。 

例 8.7 房价 预测 问题 的 神经 网 络 算法 。 

在 例 3.3 行 详细 描述 了 房价 预测 问题 。 房 价 预测 问题 是 一 个 回归 问题 。 其 中 ,每 条 数 
据 含 有 8 个 特征 和 一 个 实数 标签 。 在 例 7. 10 中 ,分别 用 线性 回归 算法 .决策 树 算法 .随机 森 
林 算 法 和 梯度 提升 决策 树 算法 求解 了 房价 预测 问题 。 这 4 个 算法 预测 模型 的 决定 系数 分 别 
为 0.59、0.60、0.65 和 0.69。 图 8. 24 中 的 算法 采用 图 8. 23 中 的 神经 网 络 模型 来 重新 求解 
房价 预测 问题 。 
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inport nnpy as rp. 

frm skleam.datasets inport fetch califomia housing 

fram sklearn.model selection import train test split 

fram sklearn.preprocessing import StandardScaler 

fram sklearn.preprocessing import MirMaxScaler 

inport machine learning.lib.nn activators as nn activators 
import machine learning.lib.nn layers as nn layers 

import machine learning.lib.nn loss as nn loss 

franmachine learning.lib.neural network import NeuralNetwork 
fram sklearn.metrics import r2 score 


def process features (X) : 
Scaler- StandardScaler () 
X-scaler.fit transform(X) 
Scaler-MirMaxScaler (feature range- (- 1,1)) 
X-scaler.fit transfomm(X) 
retum X 


def create layers () : 
n inputs- 8 
n hiddenl- 100 
n hidden2- 50 
n outputs-l 
layere-[ ] 
relu-mnn activators.RelUActivator() 
layers.append(nn layers.layer(n inputs, n hiddenl, activator- relu)) 
layers.agperd(nn layers.layer(n hictenl, n hidłn?, activator= relu)) 
layers.append(nn layers.layer(n hidden2, n outputs)) 
retum layers 


housing- fetch california housing() 

X- housing.data 

y-housirg.target .reshape (- 1,1) 

X train, X test, y train, y test -train test split(X, y, test size-0.5, randam state- 0) 
X train- process features(X train) 

X test-prooess features (X test) 


layers- create layers () 
loss-nn loss.MSE () 


图 8.24 房价 预测 的 神经 网 络 算法 
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40 model-NeuralNetwork (layers, loss) 

41 model.fit(X train, y train, 100000, 0.01) 

42 y pred-model.predict (X test) 

43 print(r2 score(y test, y pred)) 

图 8.24 (5 
在 图 8.24 中 ,第 31 一 36 行 生成 训练 数据 与 测试 数据 。 其 中 ,第 35 一 36 行 对 特征 作 标 
隐藏 层 ! a 准 化 与 限界 处 理 。 第 38 行 调用 第 19 一 29 行 实 

输入 O yi 现 的 create_ layers 函数 来 生成 模型 的 网 络 结 


" O sunm 构 。 本 例 中 的 模型 有 3 层 ,如 图 8. 25 所 示 。 每 

O O 条 训练 数据 有 8 个 特征 。 所 以 神经 网 络 含有 8 
Y D D D O 个 输入 。 随 后 是 分 别 含有 100 个 和 50 个 神经 
元 的 隐藏 层 ,它们 的 激活 函数 都 是 ReLU 函数 。 


^ o © 最 后 是 输出 层 。 因 为 这 是 一 个 回归 问题 ,所 以 
"TT 输出 层 仅 含有 一 个 神经 元 。 


第 39 行 指定 损失 函数 为 图 8. 22 中 实现 的 
均 方 误差 MSE。 第 40,41 行 调用 图 8. 23 中 的 
神经 网 络 算法 来 训练 模型 。 进 行 100 000 轮 随 
机 梯度 下 降 搜索 , 且 学 习 速 率 为 0.01。 第 42.43 行 测试 模型 。 

运行 图 8. 24 的 程序 ,得 到 神经 网 络 模型 的 决定 系数 为 0.66。 这 说 明 对 于 房价 预测 问 
题 ,神经 网 络 算法 的 效果 优 于 线性 回归 算法 。 

例 8.8 手写 数字 识别 问题 的 神经 网 络 算法 。 

例 5. 4 详细 介绍 了 手写 数字 识别 问题 。 手 写 数字 识别 是 一 个 十 元 分 类 问题 。 在 这 个 问 
题 中 ,每 一 张 图 片 有 784 个 灰 度 特征 以 及 一 个 表示 图 片 中 的 数字 的 标签 。 预 测 任务 是 根据 
图 片 灰 度 特征 预测 图 片 的 标签 值 。 在 例 5. 10 中 ,采用 Softmax 回归 算法 求解 手写 数字 识别 
问题 ,获得 了 89% 的 预测 准确 率 。 本 例 采 用 图 8. 26 中 的 神经 网 络 算法 来 重新 求解 手写 数字 
识别 问题 。 


图 8.25 房价 预测 问题 的 神经 网 络 模型 


import numpy as np 

from tensorflow.examples.tutorials.mnist import input data 
import machine learning.lib.nn activators as nn activators 
import machine learning.lib.nn layers as nn layer 

inport machine learning.lib.nn loss as nn loss 

fron machine learning.lib.neural network import NeuralNetwork 
fram sklearn.metrics import accuracy score 
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def create layers): 


图 8.26 手写 数字 识别 问题 的 神经 网 络 算法 


10 n features-28* 28 

nu n hiddenl= 300 

2 n hidden2- 100 

13 n classes- 10 

14 layers-[]] 

15 relu = rn.RelJActivator () 

16 layers.append(nn.Layer(n features, n hiddenl, activator = relu)) 
17 layers.append(nn.layer(n hiddenl, n hidden2, activator = relu)) 
18 layers.append(nn.layer(n hidder2, n classes)) 

19 retum layers 


21 mnist-input data.read data sets("MNIST data/", one hot- True) 
22 X train, y train-mnist.train.images, mnist.train.labels 
23 X test, y test-mnist.test.images, mist.test.labels 


25 layers-create layers () 

26 1loss-nn.SoftmaxCrossEntropy () 

27 model-nn.NeuralNetwork (layers, loss) 

28 model.fit(X train, y train, 50000, 0.01) 

29 v-model.predict(X test) 

30 præ nn.softmex (v) 

31 y pred-np.argrex (proba, axis- 1) 

32 accuracy-accuracy score(np.argrax(y test, axis- 1), y pred) 
33 print ("accuracy = ()".format (accuracy) ) 


图 8.26 (5 


在 图 8. 26 中 ,第 21 一 23 行 生成 训练 数据 与 测试 数据 。 在 第 21 行 中 ,one_hot 参数 值 设 
成 True, 表 明 数 据 的 标签 采用 向 量 标签 形式 。 第 25 行 调用 在 第 9 一 19 行 中 定义 的 函数 
create layers 生成 模型 的 网 络 结构 。 本 例 中 的 模型 有 3 层 , 如 图 8. 27 所 示 。 每 个 手写 数字 
图 片 由 28X28 王 784 个 像素 点 组 成 ,所 以 神经 网 络 有 784 个 输入 。 随 后 是 分 别 含有 300 个 
和 100 个 神经 元 的 隐藏 层 , 它 们 的 激活 函数 都 是 ReLU 函数 。 最 后 是 输出 层 。 因 为 总 共有 
10 个 类 别 ,所 以 输出 层 含 有 10 个 神经 元 。 

图 8. 26 中 的 第 26 行 指定 图 8. 22 中 的 SoftmaxCrossEntropy 为 损失 函数 。 第 27,28 行 
调用 图 8. 23 中 的 神经 网 络 算法 训练 模型 。 总 共 进 行 50 000 轮 随 机 梯度 下 降 搜索 , 且 学 习 速 
率 为 0.01。 第 29—32 行 测试 模型 。 对 每 一 条 测试 数据 ,第 29 行 计 算 神 经 网 络 的 输出 ,本 例 
是 分 类 问题 ,因此 要 对 神经 网 络 的 输出 进行 Softmax 变换 才能 得 到 概率 预测 值 ; 第 30 行 对 
网 络 的 输出 进行 Softmax 变换 ;第 31 行 用 最 大 概率 分 类 函数 对 类 别 进 行 预测 ;第 32 行 计 算 
预测 的 准确 率 。 运 行程 序 后 得 到 的 神经 网 络 模型 有 96. 69%% 的 预测 准确 率 。 显 然 , 对 于 手写 
数字 识别 问题 ,神经 网 络 模型 的 预测 准确 率 高 于 Softmax 回归 模型 。 
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图 8.27 手写 数字 识别 问题 的 神经 网 络 模型 


8.4 神经 网 络 的 TensorFlow 实现 


在 8.3 节 中 介绍 了 神经 网 络 的 算法 实现 ,其 目的 只 是 为 了 展示 随机 梯度 下 降 算 法 及 反 
向 传播 算法 的 思想 ,因而 这 一 实现 并 不 包含 许多 工程 实现 上 的 细节 功能 ,例如 神经 网 络 的 分 
布 式 计算 ,矩阵 乘法 加 速 以 及 与 高 速 图 像 计 算 单 元 GPU 的 对 接 等 。 然 而 ,这 些 功 能 在 许多 
大 型 的 神经 网 络 算法 应 用 中 是 必 不 可 少 的 ,例如 棋 类 博弈 系统 .细致 的 图 片 识别 系统 等 。 本 
节 要 介绍 的 TensforFlow 就 是 一 个 在 工程 上 实现 神经 网 络 算法 的 强 有 力 工具 。 

TensorFlow Æ Google 公司 在 2017 年 2 月 发 布 的 机 器 学 习 开源 软件 库 。 它 支持 多 服 
务 器 分 布 式 计算 .GPU 加 速 以 及 多 操作 系统 (包括 移动 计算 平台 Android 和 iOS). 
TensorFlow 集成 于 Python 和 C++ 等 常用 编程 语言 的 标准 库 中 ,可 以 方便 地 构建 与 训练 神 
经 网 络 模型 ,并 且 支 持 卷 积 神经 网 络 循环 神经 网 络 等 深度 学 习 算法 。2016 年 3 月 击败 人 类 
围棋 冠军 的 AlphaGo 博弈 系统 就 是 基于 TensorFlow 平台 的 。 许 多 重要 的 工业 应 用 也 都 是 
构建 在 TensorFlow 之 上 的 。 

在 附录 B 中 详细 介绍 了 TensorFlow 的 基本 概念 与 语法 。 其 中 包括 “计算 图 ”这 一 重要 
的 理念 。TensorFlow 的 程序 通常 包含 两 个 部 分 : 计算 图 的 构建 与 计算 图 的 运行 。 构 建 计 
算 图 时 不 涉及 具体 的 数据 ,只 搭建 计算 需要 的 操作 。 运 行 计算 图 时 才 要 传人 具体 数据 来 执 
行 计算 。TensorFlow 实现 神经 网 络 算法 的 思路 是 : 首先 在 计算 图 构建 部 分 构造 神经 网 络 
结构 以 及 训练 和 测试 模型 需要 的 操作 ,然后 在 计算 图 的 运行 部 分 传人 训练 数据 来 执行 计算 
图 指定 的 操作 。 

本 节 中 以 手写 数字 识别 问题 为 例 . 详 细 地 介绍 神经 网 络 的 TensorFlow 的 具体 实现 。 其 
算法 描述 见 图 8. 28。 
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import tensorflow as tf 
import numpy as np 
fram tensorflow.examples.tutorials.mnist import input data 


n inputs-28* 28 

n hiddenl- 300 

n hidden2- 100 

n classes- 10 

X-tf.placeholder(tf.float32, shape- (None, n inputs)) 
y-tf.plaoeholder(tf.int64, shape- (None, n classes) 

hiddenl- tf.layers.dense (X, n hiddenl, activation- tf.nn.relu) 
hidden2- tf.layers.dense (hiddenl, n hidder2, activation- tf.nn.relu) 
outputs- tf.layers.dense (hidden?, n classes) 

cross entropy- tf.nn.softmax cross entropy with logits (labels- y, 
logits- outputs) 

loss-tf.reduce mean(cross entropy) 

cptimizer- tf.train.GradientDescentOptimizer(learning rate- 0.01) 
train op- optimizer.minimize (loss) 

correct- tf.equal (tf.argrax (y, 1), tf.argmax(outputs, 1)) 

accuracy score- tf.reduce mean(tf.cast (correct, tf.float32)) 


with tf.Session() as sess: 
tf.gldoal variables initializer() .run() 
mnist-input data.read data sets ("MNIST data/", one hot- True) 
X train, y train-mist.train.images, nnist.train.labels 
X test, y test-mnist.test.images, mnist.test.labels 
for t in range (50000) : 
i-np.rand.randint (0, len(X train)) 
X i-X train i].reshape(1, - 1) 
y i-y trair i].reshape(1, - 1) 
sess.run(train cp, feed dict- (X : Xi, y: y i)) 
accuracy- accuracy score.ewal(feed dict- (X : X test, y : y test]) 
print ("accuracy- ()".format (accuracy) ) 


图 8. 28 f4 8 


图 8.28 TensorFlow 手写 数字 识别 的 神经 网 络 


E 了 一 个 与 图 8. 26 中 结构 完全 相同 的 神经 网 络 模型 。 具 体 网 络 结构 见 


图 8.27。 图 8. 28 中 的 算法 分 为 两 部 分 : 第 一 部 分 是 第 5 一 19 行 的 计算 图 构建 ,第 二 部 分 是 
第 21 一 32 行 的 计算 图 运行 。 

在 第 一 部 分 的 计算 图 构建 中 ,第 9、10 TELKE X 和 y ,它们 分 别 表示 特征 和 标签 。 
每 条 数据 的 标签 是 向 量 标签 的 形式 。 第 11 行 定义 神经 网 络 的 隐藏 层 hidden1。TensorFlow 


n. 


P 通 过 layers. dense 类 来 表示 一 个 层 。 它 的 构造 函数 需要 以 下 3 个 基本 信息 : 与 之 相连 的 


上 一 层 、 层 中 的 神经 元 数 和 激活 函数 (如 不 指定 , 则 默认 为 Identity 激活 函数 )。 在 第 11 行 
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中 ,hiddenl 的 上 一 层 是 输入 X. hiddenl 中 有 n_hiddenl = 300 个 神经 元 ,激活 函数 是 
ReLU 函数 。 第 12 行 类 似 地 声明 隐藏 层 hidden2, 它 的 上 一 层 是 hidden1。hidden2 中 有 n_ 
hidden2— 100 个 神经 元 ,激活 函数 是 ReLU 函数 。 第 13 行 定义 输出 层 outputs, 它 的 上 一 层 
是 hidden2。 由 于 有 10 个 类 别 . 所 以 outputs 层 含有 10 个 神经 元 。outputs 层 的 激活 函数 是 
默认 的 Identity 函数 。 

第 14—17 行 构建 计算 图 中 与 模型 训练 相关 的 操作 。 第 14 行 定义 交叉 焙 损 失 函 数 。 在 
TensorFlow 中 用 softmax cross entropy with logits 来 计算 交叉 焙 。 它 需要 两 个 输入 : 标 
签 值 labels 和 神经 网 络 的 输出 logits。 函 数 先 对 神经 网 络 的 数据 做 Softmax 变换 。 然 后 ,再 
对 变换 后 的 结果 结合 标签 值 计算 交叉 烂 。 第 14 行 中 输入 张 量 y 作为 标签 。 输 入 outputs E 
为 神经 网 络 输出 。 在 第 15 行 对 第 14 行 的 结果 取 平 均值 作为 最 终 的 目标 函数 。 在 第 16 行 
中 定义 梯度 下 降 算 子 optimizer。 在 第 17 行 中 定义 操作 train_op, 它 运用 optimizer 来 优化 
交叉 焙 损 失 函 数 。 第 18.19 行 是 计算 图 中 与 模型 测试 相关 的 部 分 。 第 18 行 用 最 大 概率 分 
类 函数 来 判断 类 别 预测 是 否 正 确 。 第 19 行 计算 预测 准确 的 比例 作为 准确 率 。 

在 第 二 部 分 的 计算 图 运行 中 ,由 第 21 行 的 with 语法 来 标识 计算 图 的 运行 。 第 22 行进 
行 变量 初始 化 。 第 23 行 读 入 手写 数字 识别 数据 。 其 中 将 one hot 参数 值 设 为 True, 使 得 每 
条 数据 的 标签 都 是 一 个 向 量 。 第 24、25 行 生 成 训练 数据 和 测试 数据 。 程 序 通过 第 26 一 30 
行 的 循环 ,进行 50 000 轮 随机 梯度 下 降 搜索 。 在 每 一 轮 中 ,第 27 一 29 行 随机 选取 一 条 训练 
数据 。 第 30 行 通过 运行 train. op 算 子 对 模型 进行 随机 梯度 下 降 搜 索 。 第 31.32 行 计算 模 
型 在 测试 数据 上 的 预测 准确 率 。 

运行 图 8. 28 中 的 程序 ,模型 获得 了 96. 89% 的 准确 率 。 它 与 图 8. 26 中 的 算法 殊途同归 。 


小 结 


神经 网 络 算法 的 灵感 来 源 于 对 人 类 大 脑 神经 系统 的 模拟 。 它 是 连接 机 器 学 习 中 的 经 典 
算法 与 前 沿 理 论 的 桥梁 。 本 章 深入 介绍 了 神经 网 络 算法 的 理论 与 实践 。 其 中 的 反 向 传播 算 
法 是 神经 网 络 模型 训练 的 灵魂 。 神 经 网 络 中 的 每 一 条 边 上 都 带 有 权重 参数 。 反 向 传播 算法 
的 思想 是 : 先 通过 链 式 法 则 递归 地 计算 目标 函数 对 每 一 个 神经 元 的 输出 值 的 梯度 ,然后 再 
次 用 链 式 法 则 计算 边 上 的 权重 参数 的 梯度 。 通 过 将 这 一 系列 操作 表示 为 简练 的 矩阵 运算 ， 
本 章 中 提供 了 神经 网 络 算法 的 精炼 的 算法 实现 。 

最 后 ,TensorFlow 是 目前 十 分 流行 的 构建 神经 网 络 模型 的 工具 。 本 章 中 也 介绍 了 神经 
网 络 的 TensorFlow 实现 ,这 也 为 第 9 章 中 的 深度 学 习 打 下 了 基础 。 


习题 


8.1 请 计算 图 8. 29 中 的 神经 元 模型 的 输出 。 
8.2 请 计算 图 8. 30 中 的 神经 网 络 模型 的 输出 。 其 中 ,输入 x=( 一 1,2)。 
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图 8.29 习题 8.1 的 神经 元 模型 


(2. c—identity 
t (2) 
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输出 ? 


图 8.30 习题 8.2 的 神经 网 络 模 型 


8.3 XOR 函数 的 神经 网 络 表示 。 

XOR 函数 是 一 个 二 元 布尔 函数 f;: {0,1)* 一 {0,1}。 其 中 , f (0,0)=f(1,1)=0， 
f(.D—f(1.0)— 1, ili iE — A MES IL IR EOM. h, 使 得 对 任意 an € (01) 8 
h(xisz2)— f(x). 

8.4 许多 常用 的 机 器 学 习 模型 都 是 神经 网 络 模型 的 特殊 情况 。 请 分 别 将 线性 回归 模 
型 .Logistic 回归 模型 和 Softmax 回归 模型 表示 成 神经 网 络 的 结构 。 

8.5 考察 图 8.30 中 的 神经 网 络 模型 。 设 在 习题 8. 2 中 计算 出 该 模型 关于 样本 x= 
(一 1,2) 的 输出 等 于 vw, 并 设 x 对 应 的 标签 > 一 一 6, 损 失 函 数 定义 为 二 (z) 一 (一 >) 。 请 用 
反 向 传播 算法 计算 L 对 模型 的 各 参数 的 梯度 值 。 

8.6 在 一 个 上 元 分 类 问题 中 , 设 一 个 神经 网 络 模型 的 输出 为 A€E R*。 神 经 网 络 分 类 算 
法 的 目标 函数 是 对 wv 做 Softmax 216: Jc B 2e SUE L Cv) — (y softmaxC v)» HP y € {0,1}* 
为 向 量 标签 。 请 证 明 


i — log(softmax( v)) — y 

8.7 在 一 个 含有 个 特征 的 二 元 分 类 问题 中 ,考察 图 8.31 中 的 神经 网 络 模型 。 这 个 
神经 网 络 模 型 只 有 一 层 。 由 于 是 二 元 问题 , 它 有 两 个 输出 。 设 对 训练 数据 (x,y) ,网 络 输出 
v— Guy vj) "JF ELTUR PCIE AE SUE L (vw) 二 (y,softmax(v))。 请 用 反 向 传播 算法 计算 L 
对 模型 的 各 参数 的 梯度 。 

8.8 请 说 明 为 什么 神经 网 络 模型 不 是 一 个 凸 优化 问题 。 

8.9 过 度 拟 合 与 Dropout 算法 。 


219 


机 器 学 习 算 法 导论 l 


or 人 wyx;tbi) 
mi 


Softmax 变 换 


wo (X wyx;tb;) 
El 
图 8.31 习题 8.7 的 神经 网 络 模型 


由 于 神经 网 络 模型 含有 诸多 参数 ,所 以 有 时 它 的 过 度 拟 合 几率 较 高 。 — 
最 常用 和 有 效 的 预防 神经 网 络 过 度 拟 合 的 方法 之 一 。Droponut 算法 的 描述 如 下 : 取 定 一 
概率 值 。 在 随机 梯度 下 降 算 法 的 每 一 次 循环 中 ,首先 对 网 络 中 的 每 一 个 神 乡 sim 
将 其 抹 去 ,获得 一 个 简化 的 神经 网 络 ( 如 图 8. 32 所 示 )。 然 后 ,再 对 这 个 简化 的 神经 网 络 进 
行 网 络 输出 计算 和 反 向 传播 梯度 计算 ,以 更 新 模型 参数 。 最 后 ,恢复 被 抹 去 的 神经 元 ,并 进 
入 下 一 轮 循环 。 在 训练 完成 之 后 ,获得 权重 矩阵 WO WO ve ,WW 。 由 于 在 训练 时 每 个 神 
经 元 都 以 概率 p 被 抹 去 ,所 以 可 以 近似 地 认为 每 条 边 上 的 权重 ww 名 对 最 终 模型 输出 的 影响 
被 扩大 了 1/p 售 。 因 此 ,要 进行 以 下 的 操作 来 调整 每 条 边 上 的 权重 ; wP p wy. 


» 


图 8.32 一 轮训 练 中 Dropout 的 效果 


以 上 就 是 Dropout 算法 的 描述 。 在 实际 应 用 中 ,通常 取 Dropout 概率 p 为 0.5。 请 结合 
图 8. 32, 实 现 带 有 Dropout 功能 的 神经 网 络 算法 。 
8.10 时 装 类 别 识别 。 
时 装 类 别 识别 问题 的 任务 是 预测 一 张 图 片 中 的 时 装 类 别 。 时 装 类 别 识别 问题 的 数 
据 来 自 Zalando Research?。 在 时 装 数据 集中 ,共有 60 000 张 时 装 的 图 片 。 每 张 图 片 表 
一 个 28 X28 的 像素 灰 度 矩阵 ,并且 含有 一 个 属于 {0,1,…,9} 的 标签 ,用 于 表明 图 片 


@ 本 题 的 数据 来 自 https://github. com/zalandoresearch/fashion-mnist, 也 可 参见 https://www. kaggle. com/ 
zalando-research/fashionmnist, 还 可 从 GitHub 网 站 的 本 书页 面 https://github. com/wangleil8/machine_learning F $. 
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中 所 示 的 时 装 类 别 。 时 装 总 共有 10 种 类 别 : 工 恤衫 ,长 裤 \ 套 头 衫 连衣裙、 外 套 、 高 跟 
圣 . 衬 衣 、 休 闲 鞋 提包 以 及 靴子 ,对 应 的 类 别 号 为 0 一 9。 图 8. 33 是 各 类 别 的 时 装 数据 
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图 8.33 时装 数据 集 采 样 


请 下 载 时 装 数据 fashion-mnist_train. csv 至 当前 目录 。 用 图 8. 34 中 的 程序 读 入 数据 ， 
并 设计 神经 网 络 算法 来 完成 时 装 类 别 预测 问题 。 


import pandas as pd 


1 

3 defget data(: 

4 d£-pd.read csv("./fashion-mnist train.csv") 
5 y-df[ 'label'] values 

6 df.drop( 'label'], 1, inplace- True) 

3 X-df.values 

8 retum X, y 


图 8.34 读 取 时 装 数据 的 程序 
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深度 学 习 算法 是 一 类 基于 神经 网 络 的 机 器 学 习 算法 。 深 度 学 习 算 法 的 一 个 显著 特点 是 
它 涉及 多 层 结构 复杂 且 功 能 各 异 的 神经 网 络 。 多 层次 的 神经 网 络 通常 称 为 深度 网 络 。 因 
而 ,基于 深度 网 络 的 机 器 学 习 就 称 为 深度 学 习 。 

人 脑 是 一 个 结构 复杂 的 模型 。 深 度 学 习 算 法 所 涉及 的 正 是 结构 复杂 的 神经 网 络 , 因 而 
该 算法 比 其 他 机 器 学 习 算 法 更 加 接近 人 脑 的 模型 。 在 图 像 识别 、 自 然 语言 处 理 等 人 脑 擅 长 
4 领域 中 ,深度 学 习 算 法 往往 能 够 展示 出 其 他 机 器 学 习 算 法 所 无 法 比拟 的 效果 。 然 而 ,这 也 
不 是 没有 代价 的 ,训练 结构 复杂 的 深度 网 络 需要 耗费 大 量 的 计算 资源 。 近 年 来 ,计算 机 世 
技术 的 飞速 发 展 为 深度 学 习 的 成 功 提 供 了 有 力 的 保障 。 正 因 如 此 ,深度 学 习 正 处 于 茵 勃发 
展 的 时 期 , 它 也 是 当前 机 器 学 习 算法 研究 的 前 沿 领域 。 

为 了 展示 深度 学 习 的 思维 方式 ,本 章 介 绍 两 类 基本 的 深度 学 习 算 法 。9. 1 节 介 绍 卷 积 
神经 网 络 , 它 是 通过 模拟 人 类 视觉 神经 来 识别 图 像 的 强 有 力 的 算法 。9. 2 节 介绍 循环 神经 
网 络 , 它 模拟 人 脑 的 记忆 功能 。 它 的 长 处 在 于 处 理 与 时 间 序 列 相关 的 问题 ,例如 股票 走势 预 
测 、 自 然 语 言 处 理 等 。 在 9. 2 节 的 最 后 ,还 将 介绍 一 类 循环 神经 网 络 的 加 强 算法 一 一 长 短 时 
记忆 单元 , 它 使 得 循环 神经 网 络 能 够 选择 性 地 遗忘 次 要 的 信息 ,从 而 能 够 专注 于 更 加 重要 的 
信息 。 

卷 积 神经 网 络 与 循环 神经 网 络 算法 都 是 深度 学 习 的 基本 内 容 , 也 是 对 该 领域 做 更 深入 
的 研究 的 基础 。 


9.1 卷 积 神经 网 络 


大 脑 中 视觉 神经 的 功能 是 接收 图 像 的 信号 ,并 对 其 做 出 反应 。 图 9. 1 中 是 两 种 视觉 神 
经 元 对 图 像 信号 的 接收 方式 。 图 9. 1(a) 中 的 神经 元 一 次 性 接收 了 图 像 中 的 所 有 信息 ,而 
图 9.1(b) 中 的 神经 元 只 接收 了 图 像 中 一 个 局 部 区 域 的 信息 。 


(a) (b) 
图 9.1 两 种 视觉 神经 元 对 图 像 信 号 的 接收 方式 
在 20 世纪 50 年 代 末 ,美国 的 神经 学 家 休 贝 尔 和 瑞典 的 神经 学 家 威 塞 尔 通过 对 猫 和 狼 
子 的 视觉 神经 细胞 的 实验 研究 发 现 ,每 一 个 视觉 神经 元 都 有 一 个 “局 部 接收 域 ”, 该 神经 元 扫 
过 整个 图 像 ,大 脑 就 获得 了 整个 图 像 的 信息 ,如 图 9. 2 所 示 


$ 

i o 0 

o o 0 
o o 


图 9.2 大脑 获 得 完整 图 像 信 息 的 方式 


体 贝尔 和 威 塞 尔 还 发 现 ,特定 的 视觉 神经 元 对 特定 的 结构 十 分 敏感 。 例 如 ,有 些 神经 元 
擅 于 检测 图 像 中 的 线条 ,有 些 神经 元 擅 于 检测 尖 点 ,等 等 。 此 外 ,一 些 神经 元 对 基础 结构 较 
为 敏感 ,而 另 一 些 神 经 元 对 由 基础 结构 组 成 复杂 结构 较为 敏感 。 正 是 因为 这 些 重要 的 发 现 ， 
休 贝 尔 和 威 塞 尔 获得 了 1981 年 的 诺 贝 尔 生 理学 或 医学 奖 。 

卷 积 神经 网 络 来 自 对 上 述 人 类 视觉 神经 的 模拟 。 图 9. 3 是 一 个 简单 的 卷 积 神经 网 络 示 


223 


机 器 学 习 算 法 导论 l 


图 9.3 卷 积 神经 网 络 示意 图 


图 9. 3 中 的 结构 与 第 8 章 介绍 的 神经 网 络 结构 有 两 个 显著 的 不 同 : 

(1) 每 一 层 中 的 神经 元 只 与 上 一 层 中 的 一 个 局 部 的 神经 元 相连 ,这 里 “局 部 ”定义 为 一 
段 连续 的 下 标 。 

(2) 同一 层 中 的 神经 元 有 完全 相同 的 结构 与 权重 。 
上 两 点 是 卷 积 神经 网 络 与 普通 神经 网 络 的 本 质 区 别 , 是 对 视觉 神经 进行 模拟 的 产物 。 
首先 ,每 个 神经 元 只 与 上 一 层 中 局 部 相连 是 为 了 模拟 图 9. 1(b) 中 的 视觉 神经 具有 局 部 接收 
域 的 性 质 。 其 次 ,同一 层 中 的 神经 元 完全 相同 是 模拟 图 (9. 2) 中 同一 个 视觉 神经 扫 过 整个 图 
像 的 过 程 ,所 以 可 以 认为 卷 积 神经 网 络 的 每 一 层 都 由 同一 个 神经 元 的 复制 组 成 。 最 后 , 较 低 
的 层 负 责 如 点 , 线 、 弧 度 等 基础 结构 ,而 较 高 的 层 则 负责 由 基础 结构 组 成 的 复杂 结构 。 卷 积 
神经 网 络 中 的 每 一 层 都 被 称 为 卷 积 层 。 

图 9. 3 仅 是 一 个 卷 积 神经 网 络 的 示意 图 。 实 际 应 用 中 的 卷 积 神经 网 络 的 结构 比 图 9. 3 
中 的 网 络 结构 复杂 。 这 是 因为 , 卷 积 神经 网 络 建 模 的 对 象 往往 是 图 片 ,而 图 片 可 以 表示 成 像 
素 矩 阵 , 所 以 卷 积 神经 网 络 的 每 一 层 的 输入 与 输出 都 具有 和 矩阵 的 形式 。 可 以 认为 实际 应 用 
中 的 卷 积 神经 网 络 是 图 9. 3 中 的 结构 在 矩阵 情形 的 推广 。 


9.1.1 滤 镜 


首先 要 引入 滤 镜 的 概念 。 简 单 来 说 . 滤 镜 的 功能 是 通过 模拟 视觉 神经 扫 过 图 片 的 过 程 
来 提取 一 张 图 片 中 的 信息 。 如 图 9. 4 所 示 , 滤 镜 将 一 张 图 片 过 滤 为 男 一 张 图 片 , 称 之 为 
镜像 。 

在 卷 积 神经 网 络 中 ,一 个 形状 为 pXg 的 滤 镜 是 一 个 p Xg 矩阵 。 一 张 图 片 可 以 用 一 个 
m Xn 像素 灰 度 矩阵 局 来 表示 。 设 网 是 一 个 pXg 滤 镜 。 滤 镜 W 在 图 片 U 上 的 作用 定义 为 
一 个 (m 一 p 十 1)X(n 一 gq 十 1) 和 矩阵 C, 其 元 素 为 
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图 9.4 滤 镜 示意 图 


将 C 称 为 滤 镜 W ER U 上 的 镜像 。 由 式 (9. 1) 定 义 的 矩阵 C 就 称 为 U 5 W 的 卷 积 , 记 作 
C=U *W, 
例 9.1 U MW AAA 


1 2 
1 0 
4 5 6 w-| | 
ô 1 
T 8 '9 
图 9.5 是 计算 卷 积 Ux*W 的 过 程 演示 。 先 将 矩阵 W RKA EEU, fef T 1450 
的 位 置 上 ,计算 U 的 2X2 子 矩阵 中 各 分 量 与 W 中 对 应 分 量 的 乘积 之 和 。 然 后 ,把 这 些 乘积 
之 和 依次 排列 成 2X2 矩阵 ,就 得 到 了 卷 积 口 < 多。 


g= 


E~ ad 
(| cup [i88] Gul 
2 | l4 => vw- [5 i| 


图 9.5 计算 卷 积 U* W 


例 9.1 中 的 UU 与 W 的 卷 积 计算 过 程 就 是 滤 镜 多 扫 过 图 片 U 的 过 程 。 卷 积 生 成 的 镜像 
表示 了 滤 镜 对 图 片 中 信息 的 提取 。 卷 积 神经 网 络 的 工作 原理 就 是 训练 合适 的 滤 镜 来 提取 图 
片 中 对 预测 有 用 的 镜像 。 

例 9.2 图 9.6 是 一 张 颐和园 佛 香 阁 的 图 片 , 它 取 自 Sklearn 图 片 库 。 

设 U 是 颐和园 佛 香 阁 图 片 的 m Xn 像素 灰 度 和 矩阵 。 考 察 如 下 的 2X1 滤 镜 : 


—4 
w=| | (9. 2) 
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图 9.6 颐和园 佛 香 阁 


按照 式 (9. D , 卷 积 矩 阵 C 中 的 各 元 素 为 : 
li<m—l: l1&jsn 
1 于 像素 矩阵 U 中 的 元 素 us 表示 的 是 图 片 中 对 应 位 置 的 灰 度 ,因而 是 两 个 上 下 相 邻 位 置 
的 灰 度 值 之 差 。 这 也 表示 像素 矩阵 中 的 横向 线条 。 因 此 , 卷 积 C= 二 U * W 表示 图 片 中 物体 的 
横向 轮廓 线 。 例 如 ,图 9.6 的 一 个 局 部 截图 的 像素 矩阵 为 
74 45 50 52 
62 41 47 49 
V =|119 108 109 112 
127 111 112 118 
I2 110 n 2117 


按照 式 (9. 1) , 卷 积 矩阵 为 


-=A = = m 
57 67 62 63 

C=V*W= 
8 3 3 1 


a l 4 
EERE C 中 ,可 以 清楚 地 看 到 第 2 行 的 灰 度 值 很 高 ,而 其 他 行 的 灰 度 值 都 较 低 , 这 说 明 
镜像 的 第 2 行 呈 现 出 的 是 这 幅 局 部 截图 的 横向 轮廓 线 。 
将 式 (9.2) 的 滤 镜 作用 在 图 9. 6 中 的 佛 香 阁 图 片 中 ,就 能 得 到 整个 阁楼 的 横向 轮廓 ,如 
图 9.7 所 示 。 图 9.7 就 是 原 图 的 一 个 镜像 。 
不 同 的 滤 镜 将 得 到 不 同 的 镜像 。 考 察 1X2 滤 镜 多 =[ 一 1,1], 由 此 得 到 的 镜像 C=U * 
W 就 是 佛 香 阁 的 纵向 轮廓 ,如 图 9. 8 所 示 。 


9.1.2. 卷 积 层 
由 于 滤 镜 的 镜像 依然 是 一 个 矩阵 ,所 以 一 个 滤 镜 可 以 过 滤 另 一 个 滤 镜 的 镜像 。 卷 积 神 


图 9.7 佛 香 阁 的 横向 轮廓 


ad 


图 9.8 佛 香 阁 的 纵向 轮廓 


经 网 络 是 通过 层 层 的 滤 镜 过 滤 来 不 断 提取 原 图 片 中 的 有 用 信息 ,从 而 完成 预测 任务 。 

一 个 卷 积 神经 网 络 是 由 一 个 个 卷 积 层 相 连 组 成 的 。 而 每 一 个 卷 积 层 都 由 一 组 形状 相同 
的 滤 镜 组 成 。 在 卷 积 神经 网 络 中 ,每 一 个 卷 积 层 的 功能 是 对 上 一 个 卷 积 层 输出 的 镜像 进行 
过 滤 , 并 将 生成 的 镜像 作为 下 一 个 卷 积 层 的 输入 。 

一 个 卷 积 层 的 输出 可 以 包含 多 个 镜像 。 以 下 是 卷 积 层 生 成 镜像 的 算法 。 设 上 一 个 卷 积 
层 生成 了 1 个 镜像 UV QUO ,…,U?。 其 中 ,每 个 US 都 是 mXn 矩阵。 如 果 当 前 层 的 目标 
是 输出 & 个 镜像 , 则 需要 ke l 个 形状 相同 的 滤 镜 研 "7。 其 中 心 一 1,2，… ,l,j 二 1,2,*…,k。 
对 任意 1j EN 


n 


Co 一 Due x WED (9:3) 


i=l 


依 此 定义 ,C EU? UP pe UO 4): WO? WOP eee WOP IESE TE 6 RRE, 
见 图 9.9. 

当前 层 的 输出 就 是 CV ,C 中 ,…,C 外 这 上 个 镜像 , 见 图 9.10. TAE REA E BE WC? 4E 
pXg 滤 镜 , 则 每 个 C2 都 是 一 个 (m 一 p 十 1)X (2 一 g 十 1) 和 矩阵 。 

在 将 一 个 卷 积 层 的 输出 镜像 传人 下 一 层 之 前 ,可 以 对 其 进行 处 理 。 池 化 是 一 个 最 常用 
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Uu = uO 


图 9.9 滤 镜 过 滤 U" ,U””,…,U" 后 镜像 的 又 加 


(go … D 
UD uU COCO co 


图 9.10 当前 层 输出 的 镜像 C"” ,C3 ，…,C%” 


的 处 理 方式 。 池 化 的 功能 是 放大 重要 信息 ,淡化 不 重要 的 信息 。 最 大 值 池 化 是 最 常用 的 一 
种 池 化 方法 。 

定义 9.1( 最 大 值 池 化 ) E mox n ABE C 以 及 整数 p 和 gq。 定 义 C 的 pXg 最 大 值 池 
化 MaxPool (C) 9 —4* (m— p-1)X Gai—q-- DERE D. Hp 


ds = MaX Chm, jH 
1s, 
1<e<9 
leis m—p-cl. 1&jsn—q-1 (9.4) 


例 9.3 考察 例 9. 2 中 的 镜像 C。 取 p—3.q—2. K 9. 11 清晰 地 演示 了 如 何 对 镜像 构 
&E pXg 最 大 值 池 化 和 矩阵。 用 一 个 Xda 的 窗口 依次 扫 过 整个 镜像 。 在 扫 过 的 每 个 位 置 , 计 
算 窗口 中 所 有 元 素 的 最 大 值 。 然 后 ,将 这 些 最 大 值 依 次 排列 ,就 得 到 镜像 的 pXg 最 大 值 池 
化 矩阵 。 

最 大 值 池 化 的 效果 是 放大 重要 信息 。 例 如 ,对 图 9. 7 的 特征 镜像 进行 最 大 值 池 化 之 后 ， 
其 图 像 效 果 展 示 在 图 9. 12 中 。 从 图 9.12 中 可 以 明显 地 看 到 ,最 大 值 池 化 滤 去 了 不 重要 的 
非 边 界 轮廓 信息 ,而 放大 了 横向 边界 轮廓 的 像素 。 
设 一 个 卷 积 层 输 出 & 个 m Xn 镜像 C ,C2 e LC 一 个 pXg 最 大 值 池 化 将 这 一 层 
的 输出 转化 为 DG DO ,…,D% 。 其 中 .DW 二 MaxPool(C 外 为 (m 一 p 十 1) X (n—q+1) 4E 
阵 ,j 二 1,2,…,k。 在 意义 明确 的 情况 下 ,也 可 将 卷 积 层 经 池 化 后 的 输出 直接 称 为 该 卷 积 层 
的 输出 。 
通过 池 化 滤 去 不 重要 的 信息 ,是 卷 积 神经 网 络 预防 过 度 拟 合 的 方法 之 一 。 池 化 之 后 , 降 
低 了 特征 镜像 的 行 数 与 列 数 ,从 而 降低 了 计算 复杂 度 。 此 外 , 池 化 也 增强 了 模型 的 抗 干扰 能 
力 , 从 而 能 够 增强 模型 的 稳定 性 。 

平均 值 池 化 是 另 一 类 常用 的 池 化 方法 。 平 均值 池 化 并 不 完全 滤 去 不 重要 的 信息 ,而 是 
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图 9.11 最 大 值 池 化 过 程 


图 9.12 ”最 大 值 池 化 后 佛 香 阁 的 横向 边界 轮廓 


通过 取 窗 口中 元 素平 均值 的 方式 来 强化 重要 信息 ,淡化 不 重要 信息 。 
定义 9.2( 平 均值 池 化 ) 给 定 mon MEC 以 及 整数 p 和 g。 定 义 C 的 pXg 平 均值 池 
化 AvgPool(O) 为 一 个 (m 一 p 十 1) X (n 一 gq 十 1) 和 矩阵 D。 其 中 
1 2\ 
di EE dns 2 cese 
1sSism-—p--l. Isjszn—qd1 €9.5) 
图 9. 13 是 对 图 9. 7 的 镜像 进行 平均 值 池 化 的 效果 展示 。 从 图 9. 13 中 可 以 看 到 横向 边 
界 轮廓 像素 被 放大 了 ,但 是 也 没有 完全 滤 去 非 边界 轮廓 线 的 信息 。 这 说 明 平 均值 池 化 比 最 
大 值 池 化 更 加 平滑 。 
经 过 多 个 卷 积 层 的 层 层 过 滤 之 后 ,原始 图 片 就 转化 成 了 一 组 镜像 。 为 了 完成 最 终 的 预 
测 任务 ,还 需 将 这 组 镜像 转化 为 指定 形式 的 输出 。 如 果 是 回归 问题 , 则 应 当 输 出 一 个 一 维 向 
量 ;如 果 是 元 分 类 问题 , 则 应 当 输 出 一 个 k 维 的 概率 向 量 。 卷 积 神经 网 络 通过 全 连接 层 来 
实现 这 一 目的 。 一 个 全 连接 层 就 是 在 第 8 章 中 介绍 的 普通 的 神经 网 络 。 设 最 后 一 个 卷 积 层 
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图 9.13 平均 值 池 化 后 佛 香 阁 的 横向 边界 轮廓 


Ris t LAS mon BEER UT? LU? ,…,U”, 则 全 连接 层 必须 接受 Lm * nA. RE 
接 层 可 以 有 多 个 隐藏 层 。 这 由 算法 设计 者 指定 。 全 连接 层 的 输出 层 必须 按照 指定 形式 输 
出 神经 元 。 如 果 是 回归 问题 , 则 含有 一 个 神经 元 ;如 果 是 人 无 分 类 问题 , 则 应 含有 & 个 神 
经 元 。 

综 上 所 述 , 图 9. 14 是 一 个 整体 的 卷 积 神经 网 络 结构 示意 图 。 卷 积 神经 网 络 可 以 含有 多 
个 卷 积 层 。 每 个 卷 积 层 的 输出 可 以 在 池 化 之 后 再 输出 给 下 一 个 卷 积 层 。 各 个 卷 积 层 对 图 像 
的 处 理 可 以 认为 是 对 图 像 特征 的 提取 。 提 取出 的 特征 可 以 作为 全 连接 层 的 输入 进行 最 后 的 
模型 预测 。 


图 9.14 卷 积 神经 网 络 的 结构 


与 普通 的 神经 网 络 相同 , 卷 积 神经 网 络 的 结构 必须 由 算法 设计 者 指定 ,其 中 包括 层 
数 、 每 个 卷 积 层 中 的 滤 镜 个 数 以 及 滤 镜 的 形状 。 卷 积 神经 网 络 算法 负责 训练 所 有 滤 镜 的 
权 


jo 


9.1.3 卷 积 神经 网 络 的 实现 


在 第 8 章 中 介绍 了 机 器 学 习 开源 软件 库 TensorFlow。 它 不 仅 可 以 构建 与 训练 神经 网 
络 模 型 ,也 可 以 构建 与 训练 卷 积 神经 网 络 模型 。 

图 9.15 中 的 算法 是 在 TensorFlow 中 实现 卷 积 层 , 并 用 最 大 值 池 化 来 处 理 例 9.2 中 的 
佛 香 阁 图 片 。 
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import tensorflow as tf 

import numpy as np 

import matplotlib.pyplot as plt 

fram sklearn.datasets import load sample image 


china- load sample image ("china.jpg") 

height, width, channels- china.shape 

images- china.reshape (l, height, width, channels) 
pit.figure (9.7) 

10 plt.imshow(china) 


0 0 - 0 0 6 wb 


12 X-tf.placeholder(tf.float32, shape-[ 1, height, width, channels])) 

13 filters -rp.zeros (shape- (2, 1, 3, 1), dtype = np.float32) 

14 filterd 0, :, :, :]-- 1 

15 ifilterd 1, :, 7, d=1 

16 convolution- tf.nn.conv2d (X, filters, strides-[ 1,1,1,1], padding = 'VALID') 
17 mex pool-tf.nn.max pool(convolution, ksize-[ 1,10,10,1], 

18 strides-[ 1,10,10,1], padding 'SAME') 


20 with tf.Session() as sess: 

21 conv output- sess.run(convolution, feed dict- (X : images]) 
22 pool output- sess.run(mex pool, feed dict- (X : images]) 
23 plt.figure (9.8) 

24 plt.imshow(conv output[ 0, :, :, 0], amap- "gray") 

25 plt.figure (9.12) 

26 plt.imshow(pool output[ 0, :, :, 0], amap- "gray") 


图 9.15 卷 积 层 与 池 化 算法 


该 算法 的 第 6 一 10 行 导入 例 9. 2 中 的 佛 香 阁 图 片 。 彩 色 图 片 通常 都 是 RGB 图 片 。 
RGB 图 片 中 的 每 一 种 颜色 都 可 以 用 红 (R) , S CG) 、 蓝 (B) 这 三 原色 按 一 定 的 比例 调和 得 到 ， 
因此 ,RGB 图 片 中 的 每 个 点 都 需要 用 3 个 灰 度 值 来 表示 。 这 3 个 灰 度 值 分 别 表示 在 该 点 处 
红 、 绿 、 蓝 三 原色 的 比例 。 所 以 一 张 RGB 彩色 图 片 可 以 表示 成 3 个 灰 度 矩阵 ,将 这 3 个 灰 度 
和 矩阵 分 别称 为 图 片 的 红 、 绿 、 蓝 3 个 镜像 ,或 者 称 为 3 个 频道 。 第 6 行 读 出 的 图 片 china 就 是 
这 样 的 3 个 频道 。 第 7 行 是 它 的 形状 描述 ,height 和 weight 是 每 个 频道 的 行 数 和 列 数 ， 
channels 是 频道 数 (此 处 的 值 等 于 3)。 第 8 行 按 TensorFlow 的 要 求 将 训练 数据 存储 为 1X 
height widthX3 的 张 量 格式 。 其 中 ,第 一 个 维度 表明 只 有 一 张 图 片 。 第 12 行 定义 输入 张 
量 X。 它 的 格式 与 第 8 行 中 的 images 相同 ,这 是 因为 在 运行 计算 图 时 将 把 XX 赋值 为 
Images。 


第 13—18 行 中 声明 了 一 个 卷 积 层 。 这 一 卷 积 层 的 输入 为 含有 3 个 镜像 (或 者 说 频道 ) 
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的 叉 。 它 输出 的 是 一 个 镜像 。 卷 积 层 的 输出 经 过 了 最 大 值 池 化 。 以 下 分 别 介绍 。 首 先 , 在 
第 13 行 声 明了 一 组 滤 镜 filters, TE TensorFlow 中 ,一 组 滤 镜 是 由 一 个 pXgXiliXk 的 张 量 
表示 的 。 其 中 pXg 是 每 个 滤 镜 的 形状 ,! 是 输入 镜像 的 个 数 ,& 是 输出 镜像 的 个 数 。 第 13 
行 中 的 filters 是 一 个 2X1X3X1 的 张 量 ,表明 每 个 滤 镜 是 2X1 的 ,有 3 个 镜像 输入 和 1 个 
镜像 输出 。 在 第 14,15 行 中 ,filters 中 的 每 个 滤 镜 均 按 式 (9.2) 中 的 形式 赋值 。 

第 16 行 用 nn. conv2d 定义 一 个 卷 积 层 。 此 处 的 nn. conv2d 需要 以 下 信息 : 卷 积 层 输 
人 六 一 组 滤 镜 filters、 步 长 strides 填充 padding。 其 中 ,输入 XX 和 滤 镜 组 filters 已 经 介绍 
过 ,以 下 介绍 步 长 和 填充 。 

式 (9.1) 已 给 出 了 卷 积 的 计算 方法 。 带 有 步 长 的 卷 积 计算 是 对 式 (9. 1) 的 推广 。 按 式 
(9.1) 的 卷 积 计算 公 式 ,窗口 每 次 向 右 移动 一 列 ,到 了 末 列 之 后 向 下 移动 一 行 。 步 长 的 概念 
提供 了 更 加 一 般 的 卷 积 操作 。 在 一 个 步 长 为 ;Xt 的 卷 积 计算 中 ,窗口 每 次 可 以 向 右 移动 
列 , 到 了 末 列 之 后 向 下 移动 1 行 。 由 此 可 看 出 , 式 (9.1) 中 的 卷 积 是 步 长 为 1X1 的 卷 积 。 

例 9.4 设 U 和 WW 分 别 为 

4 

8 I 0 
"7 dm | | 
6 


2 
M H 

第 16 行 中 的 strides 是 一 个 4 元 数组 。 根 据 TensorFlow 的 指定 格式 ,数组 中 的 第 一 与 
第 四 位 元 素 必须 取 值 为 1, 中 间 的 两 位 元 素 的 值 才 是 需要 指定 的 。 为 了 计算 步 长 为 ;Xt 的 
卷 积 ,只 需 将 数组 strides 的 中 间 两 位 分 别 设 成 ;与 + 即 可 。 在 第 16 行 中 ,将 ;与 均 设 为 1， 
也 就 是 使 用 式 (9. 1) 的 普通 卷 积 操作 。 

填充 是 对 式 (9. 1) 中 的 卷 积 计 算 的 男 一 个 推广 。 在 式 (9.1) 中 , 当 右 边缘 触及 末 列 之 后 ， 
窗口 就 向 下 移动 至 下 一 行 。 带 填充 的 卷 积 计算 通过 填充 全 0 列 的 方式 ,使 得 当 窗 口 右 边缘 
触及 末 列 之 后 可 以 继续 向 右 移动 窗口 ,直至 左边 缘 触及 末 列 ;并 且 通 过 填充 全 0 行 的 方式 ， 
使 得 窗口 下 边缘 触及 末 行 之 后 可 以 继续 向 下 移动 窗口 ,直至 上 边缘 触及 末 行 。 

例 9.5 考察 例 9.1 中 的 和 矩阵 U 和 W。 图 9.16 展示 了 带 填充 功能 的 卷 积 计算 过 程 。 

在 算法 的 第 16 行 中 ,将 padding 的 值 设 成 VALID, 即 不 采用 填充 功能 。 如 果 要 采用 填 
充 的 功能 ,只 需 将 padding 的 值 设 成 SAME 即 可 。 

第 17,18 行 通过 nn. max. pool 对 卷 积 层 的 输出 进行 10X10 的 最 大 值 池 化 。 与 卷 积 计 
算 类 似 , 也 可 以 通过 步 长 与 填充 来 推广 定义 9. 1 中 的 最 大 值 池 化 。 在 第 17.18 行 中 , 池 化 的 
步 长 为 10X10, 并 且 采 用 了 填充 功能 。 

第 20—26 行 是 计算 图 的 运行 部 分 。 通 过 将 已 赋值 为 第 8 行 中 生成 的 images , 卷 积 神经 
网 络 完成 了 对 图 片 的 过 滤 。 运 行 该 算法 ,可 得 到 图 9. 7 与 图 9. 12 中 的 镜像 。 
图 9. 15 给 出 的 算法 用 nn. conv2d 实现 了 卷 积 层 。 在 nn. conv2d 中 ,要 求 通 过 filters 参 
数 来 指定 一 组 滤 镜 。 在 已 知 某 组 滤 镜 能 够 带 来 好 的 效果 时 ,可 以 直接 用 nn. conv2d 来 指定 。 


w oo ne 
> ooN 
a= ana w 


则 U 和 W 的 步 长 为 2X2 的 卷 积 等 于 
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9.16 用 填充 全 0 行 和 列 的 方式 计算 卷 积 


但 是 ,在 通常 情况 下 ,算法 设计 者 只 指定 滤 镜 的 形状 ,而 滤 镜 的 具体 取 值 由 算法 训练 得 出 。 
在 这 种 情况 下 ,就 需要 用 到 TensorFlow 中 的 另 一 种 卷 积 层 的 实现 一 一 layers. conv2d。 在 
layers. conv2d 中 ,只 需 指 定 滤 镜 的 形状 ,由 算法 来 计算 指定 形状 的 最 优 滤 镜 取 值 。 

例 9.6 猫 和 狗 图 片 的 识别 .2 

对 人 类 而 言 ,区 分 一 张 图 片 中 的 动物 是 猫 还 是 狗 , 并 不 是 一 项 复杂 的 任务 。 然 而 ,计算 
机 要 完成 这 项 任务 ,就 需要 依据 一 个 合适 的 模型 。 在 猫 和 狗 图 片 的 识别 问题 中 ,训练 数据 是 
近 4000 张 猫 和 狗 的 图 片 。 本 例 的 任务 是 预测 任意 图 片 中 的 动物 是 猫 还 是 狗 。 图 9. 17 中 的 
4 张 猫 和 狗 的 图 片 是 训练 数据 集中 的 4 个 采样 。 


图 9.17 训练 数据 集中 的 图 片 采样 


O 原 数 据 来 自 Kaggle 竞赛 官方 网 站 https://www. kaggle. com/c/dogs-vs-cats, 也 可 从 GitHub 网 站 的 本 书页 面 


https: //github. com/wangleil8/machine learning 下 载 。 
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图 9. 18 中 的 程序 读 和 图片 ,并且 存储 成 卷 积 神经 网 络 可 接受 的 格式 。 第 14 行 读 和 图 
片 文 件 并 表示 成 张 量 的 形式 。 第 15 行将 图 片 统一 调整 成 image_sizeXimage_size 的 形状 。 
灰 度 矩阵 的 每 个 元 素 都 是 0 一 255 的 一 个 整数 ,其 数值 越 大 ,表示 颜色 的 灰 度 越 高 。 为 了 避 
免 在 模型 训练 时 出 现 过 大 的 整数 ,第 16 行将 灰 度 矩阵 中 的 元 素 统 一 压缩 成 L0,1] 的 小 数 。 
第 18 一 20 行 生成 标签 。 


machine learning.cnn.cats and dogs.data reader 
inport numpy as np 


1 

2 import cv2 

3 import os 

4 import gldo 

5 

6 def load data(data path, image size, classes): 
7 images-[ ] 

8 labels-[ ] 

9 for c in classes: 

10 index- classes.index (c) 

11 path= os.path.join(data path, c+ "*.jpg') 
12 files- glcb.glcb (path) 

13 for file in files: 

14 image- cv2.imread(file) 

15 image-cv2.resize(image, (image size, image size), 0, 0, cv2.INIER LINEAR) 
16 image- np.miltiply(image, 1.0/255.0) 
17 images.append (image) 

18 label= np.zeros (len (classes) ) 

19 label[ index]-1 

20 labels.append (label) 


21 return np.array (images), np.array (labels) 


图 9.18 读 入 图 片 并 调整 其 存储 格式 的 程序 


图 9. 19 中 的 算法 构建 了 一 个 卷 积 神经 网 络 ,以 解决 猫 和 狗 图 片 识别 问题 。 第 5 一 31 行 
是 计算 图 构建 部 分 。 第 33 一 54 行 是 计算 图 运行 部 分 。 


import tensorflow as tf 
fram sklearn.model selection import train test split 
franmachine learning.cnn.cats and dogs.data reader import load data 


n classes-2 


oO 0 5 QI PP 


img size- 128 


图 9.19 构建 图 片 识 别 问题 的 卷 积 神经 网 络 的 程序 
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了 


n channels- 3 
X-tf.placeholder(tf.float32, shape-[ None, img size, img size, n channels]) 
y-tf.placeholder (tf.float32, shape-[ Nene, n classes]) 
convi- t£.layers.conv2d (X, filters- 32, kermel size-[ 3,3], 
strides-[ 1,1], pading 'SaME!) 
convl pool-tf.nn.max pool (convi, ksize-[ 1,2,2,1], 
strides-[ 1,2,2,1], padding- 'SAME') 
conv2- tf.layers.conv2d(convl pool, filters- 32, kernel size-[ 3, 3], 
strides-[ 1,1], padding 'SAME') 
conv2 pool-tf.nn.mex pool(conv2, ksize-[ 1,2,2,1], 
strides-[ 1,2,2,1], pacding- 'SAME') 
conv% tf.layers.conv2d(conv2 pool, filters- 64, kernel size-[ 3,3], 
strides-[ 1,1], padding = 'SAME') 
conv3 pool-tf.nn.mex pool (conv3, ksize-[ 1,2,2,1], 
strides-[ 1,2,2,1], padding 'SAME!) 
n features-conv3 pool.get shape()[ 1:4].num elements () 
conv flat-tf.reshape(conv3 pool, [-1, n features]) 
fcl-tf.layers.dense(conv flat, 128, activation- tf.nn.relu) 
fc% tf.layers.dense (fcl, n classes) 
cross entropy- tf.nn.softmax cross entropy with logits (logits= fc2, labels- y) 
cost-tf.reduce mean(cross entropy) 
optimizer- tf.train.AdamOptimizer (learning rate- le- 4) minimize (cost) 
y pred- tf.nn.softmax (fc2) 
correct prediction- tf.equal(tf.argmax(y pred, axis- 1), tf.argmax(y, 
axis-1)) 
accuracy- tf.reduce mean(tf.cast (correct prediction, tf.float32)) 


Saver- tf.train.Saver () 
with tf.Session() as sess: 
tf.global variables initializer().run() 
data path= './ cats and dogs' 
images, labels- load data (data path, img size, [ 'dog', 'cat']) 
image train, image test, label train, label test-train test split( 
images, labels, test size- 0.1, randam state- 0) 
n epoches- 20 
batch size- 32 
best accuracy- 0 
for epoch in range (n epodhes): 


图 9.19 (55 
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44 for batch in range (len(image train)// batch size): 
45 start-batch* batch size 
46 end- (batch +1) * batch size 
47 X batch- image trair| start:end] 
48 y batch-label train start:end] 
49 sess.run(cptimizer, feed dict- [(X:X batch, y:y batdh]) 
50 test accuracy- accuracy.eval (feed dict- (X:image test, y:label test]) 
51 print ("epoch (): test accuracy= ()".format (epoch, test accuracy)) 
52 if test_accuracy> best_accuracy: 
53 saver.save(sess, "./cats and dogs model/cats and dogs.ckpt") 
54 best accuracy- test accuracy 
图 9.19 ( 续 ) 


在 这 个 例子 中 ,只 有 猫 和 狗 两 个 类 别 。 所 以 ,第 5 行将 n_classes 设 为 2。 第 6 行 指定 图 
片 均 为 128X128 的 灰 度 矩阵 。 第 7 行 指定 每 张 图 片 有 红 、 绿 、 蓝 3 个 频道 。 第 8.9 行 分 别 
定义 表示 特征 的 张 量 X 和 表示 标签 的 张 量 y。 

接 下 来 ,在 第 10—21 行 定义 卷 积 层 。 本 例 设 置 3 个 卷 积 层 , 每 个 卷 积 层 的 输出 都 带 有 
一 个 最 大 值 池 化 。 第 10.11 行 用 layers. conv2d 来 定义 第 一 层 卷 积 层 。 此 处 的 layers. 
conv2d 需要 以 下 信息 : 

* 卷 积 层 输入 X. 

* 卷 积 层 的 输出 镜像 个 数 filters。 在 第 10 行 定义 的 卷 积 层 有 32 个 输出 镜像 。 

。 每 个 滤 镜 的 形状 kernel_size。 在 第 10 行 定义 的 滤 镜 的 形状 是 3X3 滤 镜 。 

。 步 长 strides。 与 nn. conv2d 的 步 长 意义 相同 。 但 此 处 只 是 一 个 二 元 数组 。 甚 元 素 

分 别 表示 向 右 与 向 下 移动 的 步 长 。 

* 填充 padding。 与 nn. conv2d 的 填充 定义 相同 。 本 例 中 采用 了 填充 功能 。 

定义 了 第 一 个 卷 积 层 之 后 , 接 下 来 在 第 12、13 行 对 第 一 个 卷 积 层 的 输出 进行 2X2 的 最 
大 值 池 化 , 步 长 也 取 为 2X2, 并 且 采 用 了 填充 功能 。 第 14—21 行 以 同样 方式 定义 第 二 个 和 
第 三 个 卷 积 层 。 

第 22.23 行将 经 过 了 3 个 卷 积 层 的 镜像 作为 最 后 的 全 连接 层 的 输入 。 先 将 其 扁平 化 成 
向 量 的 形式 。 将 第 三 个 池 化 层 conv3_pool 的 64 个 输出 镜像 的 各 行 依次 首尾 相连 来 构成 一 
个 向 量 。 第 22 行 计 算 这 个 向 量 的 元 素 个 数 。 第 23 行 生 成 这 个 向 量 。 第 24.25 行将 扁平 化 
之 后 的 向 量 传人 两 个 全 连接 层 构 成 的 普通 神经 网 络 。 第 一 层 有 128 个 输出 ,第 二 层 有 2 个 
输出 (因为 是 二 元 分 类 问题 ) 。 

第 26 一 28 行 指定 计算 图 中 的 模型 训练 操作 。 第 26 ITELLA S E 2 ILU ES 
损失 。 第 27 行 定义 模型 的 目标 函数 为 所 有 训练 数据 上 的 交叉 箭 的 平均 值 。 第 28 行 定义 梯 
度 下 降 算 子 ,对 模型 运行 梯度 下 降 算 法 。 在 此 用 到 了 AdamOptimizer, 它 是 对 随机 梯度 下 降 
算法 的 加 强 算法 ,但 其 本 质 依然 是 随机 梯度 下 降 算 法 。 
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第 29—31 行 定 义 了 模型 的 度量 。 第 29 行 通过 对 神经 网 络 的 输出 ,用 softmax 函数 得 
到 概率 预测 y pred. $ 30 行 通过 最 大 概率 分 类 函数 给 出 类 别 预测 ,并 判断 预测 正确 与 否 。 
第 31 行 计算 预测 的 准确 率 。 

第 33—54 行 是 计算 图 运行 部 分 。 第 33 行 定义 了 saver。 稍 后 将 用 它 来 保存 训练 好 的 
模型 。 第 36、37 行 调用 图 9.18 中 实现 的 load. data 函数 读 和 图片。 第 38、39 行将 数据 分 成 
训练 数据 与 测试 数据 两 部 分 。 第 40 一 54 行进 行 20 轮 小 批量 随机 梯度 下 降 搜 索 。 在 每 一 轮 
中 批量 读 和 训练 数据 ,每 批 数据 的 规模 指定 为 32。 当 一 轮训 练 结束 时 ,第 50 行 计 算 在 测试 
数据 上 度量 模型 的 准确 率 。 第 52 一 54 行 保存 测试 数据 上 准确 率 最 高 的 模型 参数 。 

运行 图 9. 19 中 的 算法 ,可 以 得 到 猫 和 狗 的 概率 预测 和 类 别 预测 ,同时 输出 这 个 模型 的 
预测 准确 率 。 输 出 结果 显示 ,模型 在 训练 数据 上 的 预测 准确 率 达 到 76%。 用 图 9. 19 的 算法 
对 图 9. 17 中 的 4 条 测试 数据 做 概率 预测 ,结果 见 图 9. 20。 对 于 图 9. 20 中 的 图 片 (a) 和 (d)， 
模型 预测 图 中 的 动物 是 狗 的 概率 分 别 为 72% 和 99% ,预测 图 中 的 动物 是 猫 的 概率 分 别 为 
28% 和 1%; 而 对 于 图 片 (b) 和 (ce) ,模型 预测 图 中 的 动物 是 狗 的 概率 分 别 为 1% 和 47% ,预测 
图 中 的 动物 是 猫 的 概率 分 别 为 99% 和 53%。 


p7(0.72, 0.28) 


p-(0.01, 0.99) 
(a) (b) 


34 p) 
p=(0.47, 0.53) p=(0.99, 0.01) 
(c) (d) 


图 9.20 卷 积 神经 网 络 对 4 条 测试 数据 的 概率 预测 


图 9. 19 的 模型 结构 比较 简单 ,有 利于 展示 卷 积 神经 网 络 的 基本 概念 和 用 法 。 如 果 在 实 
际 问题 中 对 预测 准确 率 有 更 高 要 求 , 则 可 以 采用 结构 更 加 复杂 的 卷 积 神经 网 络 。 有 兴趣 的 
读者 可 以 参阅 相关 参考 文献 。 


9.2 循环 神经 网 络 


许多 重要 的 机 器 学 习 算 法 的 应 用 都 涉及 时 间 序 列 型 信息 。 例 如 ,用 模型 预测 未 来 的 股 
票 价 格 时 ,不 仅 要 考虑 当前 的 股价 ,还 要 结合 过 去 一 段 时 期 内 的 股价 变动 趋势 。 而 一 系列 依 
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时 间 顺 序 排列 的 股价 就 是 一 个 时 间 序 列 型 信息 。 在 用 模型 处 理 自然 语言 时 ,“ 完 形 填 空 ”是 
一 项 重要 的 课题 。 例 如 ,在 句子 “我 生长 在 中 国 , 所 以 我 会 说 .” 的 留 空 处 最 合适 填 入 的 
词语 应 该 是 "中文"。 显 然 , 在 构建 一 个 模型 来 预测 留 空 处 的 词语 时 ,需要 结合 上 下 文 的 语 
义 。 而 按照 先后 顺序 排列 的 语句 也 是 一 个 时 间 序 列 型 的 信息 。 

循环 神经 网 络 就 是 一 类 针对 时 间 序 列 型 信息 的 机 器 学 习 算 法 。 循 环 神经 网 络 的 思想 起 
源 于 20 世纪 80 年 代 。 随 着 算法 技术 的 发 展 , 循 环 神经 网 络 已 经 在 语音 识别 .自然 语言 处 理 
以 及 机 器 实时 翻译 等 领域 取得 了 重大 的 进展 。 


9.2.1 循环 神经 网 络 基本 概念 


在 一 些 监督 式 学 习 问 题 中 ,数据 样本 (x,y) 中 的 特征 x 是 具有 时 间 序 列 的 形式 , 即 x 是 
一 个 时 长 为 R 的 时 间 序 列 : 
x= (x(0 ,x1) Zr(R 一 1))》 (9.6) 
其 中 ,x(r) E R" 是 特征 组 在 r 时 刻 的 取 值 ,r 二 0,1,…,R 一 1。 标签 y 是 时 间 序 列 x 在 时 刻 尺 
NUR x CRO 。 
例 9.7 考察 如 下 的 监督 式 学 习 问 题 。 给 定时 间 序 列 { 了 (0) ,了 f(1),f(2),…}, 其 中 
f(r)= G/10) * sin(r/10), r—0.1,2,*- (9. 7) 
设 x* 一 {z(0),z(1),…,z(29)} 为 式 (9.7) 的 时 间 序 列 中 的 一 段 时 长 为 R= 30 的 连续 子 序列 ， 
其 中 


xz(r)= f(rotr), r=0,1,.,29 (9. 8) 
对 由 式 (9. 8) 给 定 的 x, 其 标签 的 取 值 为 y==f (ro 十 30)。 
在 式 (9. 8) 中 ,ro 是 子 序列 的 起 始 时 间 点 。 不 同 的 xr。 对 应 于 不 同 的 子 序列 。 因 此 ,由 不 


同 的 六 可 以 得 到 不 同 的 数据 样本 (x,y)。 例 如 ,对 于 图 9. 21 中 的 时 间 序列 f, 在 图 9. 2100) 
和 (b) 中 分 别 描述 了 了 的 起 点 是 ro 二 20 fll r,—50 且 时 长 均 为 R 二 30 的 子 序列 x Fx, 


10.0 10.0 
aal —— MFAS gai 三 一 RRAS 
pr D yn -| em 2) 2) 
50 FEAR x1, yt 50 样本 x 
2:5 2.5 
x. y? 
0.0 E 0.01 
/ x9, 2) 
5 hu 215 了 
-5.0 -5.0 
—S AS 
一 10.0 一 10.0 
0 20 40 60 80 100 0 20 40 60 80 100 
(a) (b) 


图 9.21 起 点 是 20 50 的 两 个 长 度 为 30 的 时 间 序 列 


在 时 间 序 列 的 数据 样本 (x,y) 中 ,x 的 时 长 R 是 一 个 常数 。 其 值 需要 根据 实际 问题 来 


在 时 间 序 列 分 析 领 域 中 ,将 特征 是 时 间 序 列 数据 的 标签 预测 问题 称 为 时 间 序 列 的 自 回 
归 。 循 环 神经 网 络 是 一 个 有 效 的 时 间 序 列 自 回归 算法 。 

记忆 单元 是 循环 神经 网 络 中 的 基本 单元 。 记 忆 单 输出 状态 s 
元 是 一 个 由 m 个 神经 元 组 成 的 全 连接 神经 网 络 层 。 层 
中 的 每 个 神经 元 有 m+n 个 输入 ,如 图 9. 22 Bros. (E 
m 十 n 个 输入 中 ,前 m 个 输入 对 应 一 个 m 维 向 量 s , 称 
为 状态 向 量 ; 后 n 个 输入 对 应 特征 组 x。 

由 于 层 中 有 m 个 神经 元 ,所 以 记忆 单元 的 输出 了 see con^ MARE xen" 
是 一 个 m 维 列 向 量 。 若 这 层 神经 元 的 权重 和 矩阵 为 W， 
偏 置 项 为 b, 激 活 函 数 为 o, 则 记忆 单元 的 输出 为 


人 (9.9) 


式 中 ,| Jenta 维 列 向 量 ,W 是 一 个 三 X (m+n) ERE b Èm 维 列 向 量 。 


Lj 
x 


m 


图 9.22 记忆 单元 的 示意 图 


时 长 为 R 的 时 间 序 列 数据 所 对 应 的 循环 神经 网 络 由 R 个 完全 相同 的 记忆 单元 相连 组 
成 ,如 图 9.23 所 示 。 循 环 神经 网 络 通过 传递 状态 向 量 s(1),s(2),…,s (R) 来 实现 “记忆 ”的 
功能 。 


预测 值 


LIE gr ES 
s(0) — x0) x) x71) 


图 9.23 循环 神经 网 络 的 结构 示意 图 


在 图 9.23 中 ,x 二 {x(0),x(1),…,x(R 一 1)) 是 一 个 时 长 为 R 的 时 间 序 列 数据 。 其 中 ， 
xr) E R" EFIE HER A r 的 取 值 (r==0,1,…,R 一 1)。s(0) 是 一 个 m 维 向 量 , 称 为 初始 状 
态 向 量 。 通 常 可 将 s(0) 设 置 为 全 0 向量, 也 可 以 将 它 设置 为 一 个 m 维 随机 向 量 , 这 应 视 实 
际 问题 而 定 。 状 态 向 量 的 维度 m 是 模型 的 结构 参数 ,m 的 值 由 算法 设计 者 指定 。 

在 图 9.23 所 示 的 循环 神经 网 络 中 , 取 定 初始 状态 向 量 s(0) 之 后 ,将 s(0) 与 x(0) 作 为 
图 9. 22 中 的 记忆 单元 的 输入 ,得 到 m 维 输出 状态 向 量 s (1)。 随 后 ,再 将 s(1) 与 x(1) 作 为 下 
一 个 记忆 单元 的 输入 ,得 到 m 维 输出 状态 向 量 s (2)。 如 此 循环 ,直至 第 RR 步 。 此 时 ,将 
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S(R 一 1) 与 x(GR 一 1) 作 为 最 后 一 个 记忆 单元 的 输入 ,得 到 m 维 输出 状态 向 量 s (R)。 

循环 神经 网 络 最 后 输出 的 形式 应 当 视 标签 而 定 。 如 果 是 回归 问题 , 则 输出 应 当 是 一 个 
一 维 向 量 ;如 果 是 & 元 分 类 问题 , 则 输出 应 当 是 一 个 & 维 向 量 。 因 此 ,在 得 到 m 维 输 出 状态 
向 量 s(R) 之 后 ,还 需要 将 其 转换 为 指定 维度 的 向 量 输 出 。 循 环 神经 网 络 算法 通过 一 个 全 连 
接 的 神经 网 络 层 来 实现 这 一 转换 。 如 果 是 回归 问题 , 则 用 一 个 只 含有 一 个 神经 元 的 全 连接 
层 ,该 神经 元 以 m. 维 状态 向 量 s (R) 为 输入 ,并 输出 一 个 实数 作为 回归 问题 的 标签 预测 ;如 果 
是 上 元 分 类 问题 , 则 用 一 个 含有 个 神经 元 的 全 连接 层 将 m 维 状态 向 量 s CR ) 转 换 为 k 维 向 
量 ,然后 再 通过 Softmax 函数 将 这 个 维 向 量 转化 为 & 维 概 率 向 量 。 

由 于 图 9. 23 的 循环 神经 网 络 是 由 尺 个 完全 相同 的 记忆 单元 相连 组 成 的 ,其 中 包括 权重 
矩阵 W V ELE 和 激活 函数 c, 因 此 ， 


se 
seen (w| aft}: r —0,1,--R—1 (9. 10) 
x" 


由 此 可 见 , 需 要 训练 的 循环 神经 网 络 的 参数 有 以 下 两 个 : DRO. 100 PU mX (n) 
W 和 六 维 列 向 量 5; 回 将 s(R) 转 化 为 预测 值 的 全 连接 层 的 权重 矩阵 和 偏 置 项 。 这 里 需要 
明确 指出 的 是 ,循环 神经 网 络 中 的 及 个 记忆 单元 共享 相同 的 权重 矩阵 W 和 偏 置 项 上 ,所 以 在 
训练 模型 时 ,模型 参数 的 更 新 将 影响 到 每 一 个 记忆 单元 的 输出 。 
图 9. 23 是 一 个 单 层 的 循环 神经 网 络 。 为 了 模拟 人 类 大 脑 分 层 处 理 信息 的 功能 ,也 可 以 

构建 多 层 的 循环 神经 网 络 。 图 9. 24 是 多 层 循环 神经 网 络 的 结构 示意 图 

so n " 

"MIEDA HI S gni 
sUXQ) [! 


e|] (6-9) |, ^ |(e-9) | (s9-9) 


s0) sexa) SR) 
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s00) i i T 
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x(0) x(1) x(R-1) 


图 9.24 多 层 循环 神经 网 络 的 结构 


对 于 时 长 为 R 的 时 间 序 列 数据 ,多 层 循环 神经 网 络 的 每 一 层 都 由 R 个 完全 相同 的 记忆 
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单元 组 成 。 设 第 1 层 的 每 个 记忆 单元 中 有 wm 中 个 神经 元 ,如 图 9. 25 所 示 , 在 任 一 时 刻 ,第 
4 层 的 记忆 单元 都 有 m 中 十 me? 个 输入 。 其 中 ,前 m 中 个 输入 是 一 1 时刻 第 1 层 的 输出 状态 
s? (7 一 1) ,后 mw 人 ?个 输入 是 + 时刻 第 1 一 1 层 的 输出 状态 se (7)。 


sO(—1) sp) 
Ow! (6-0) -~ Hm 
LI Em FIIO) 


图 9.25 多 层 循环 神经 网 络 的 第 ! 层 示意 图 


由 于 第 LJ ie Z3 o0 m? m 个 输入 ,因此 ,第 ! 层 记忆 单元 的 权重 矩阵 WO Jg 
当 是 一 个 me2 X (mP Hm) 矩阵 。 偏 置 项 bO 应当 是 一 个 mm 维 列 向 量 。 设 激活 函数 为 
c WA 1 层 的 第 > 个 记忆 单元 的 输出 应 当 为 
s? (r)— wl G—1) 
s 9 Cr) 
其 中 ,8 C00 AH] 8 AR s I1 t Co A A0. 向 量 ,或 为 随机 向 量 ),s" (r) — x (r— 1) HREH x 
在 时 刻 r 一 1 的 取 值 。 


9.2.2 循环 神经 网 络 的 实现 


对 于 例 9. 7 中 给 出 的 时 间 序 列 自 回 归 问 题 ,可 以 通过 TensorFlow 实现 ,构建 一 个 单 层 
的 循环 神经 网 络 来 求解 该 问题 。 图 9. 26 是 TensorFlow 对 例 9.7 的 问题 构建 单 层 的 循环 神 
经 网 络 并 求解 的 算法 描述 。 第 4 一 13 行 是 用 于 生成 数据 的 两 个 函数 。 第 15 一 24 行 是 计算 
图 的 构建 部 分 。 第 26 一 35 行 是 计算 图 的 运行 部 分 。 


je) r-—1,2,-,R (9.11) 


import tensorflow as tf 
inport numpy as np 


1 

2 

3 

4 def tim series(r): 

5 retum r/10.0* np.sin(r/10.0) 
6 

7 

8 

9 


def get semples(n samples, r max, R): 
rO0-np.ranim.rand(n samples, 1) * (r max - R) 
r-r0-np.arange(0, R 41) 

10 f-time series (r) 


Ei 9.26 时间 序 列 自 回归 问题 的 循环 神经 网 络 算法 


241 


机 器 学 习 算 法 导论 l 


1 x-f[ :, O:R] .reshape (- 1, R, 1) 
T y= f :, R] .reshape (- 1, 1) 
13 return x, y 


15 n inputs=1 
16 n outputs-l 

17 X-tf.placeholder(tf.float32, [None, 30, n inputs]) 

18 y-tf.placebolder(tf.float32, [None, n outputs]) 

19 ocell-tf.contrib.mn.BasicRNNCell (nm units- 50, activation- tf.nn.relu) 
20 states, final state-tf.nn.dynamic rnn(cell, X, dtype- tf.float32) 

21 preds-tf.layers.dense(final state, n outputs) 

22 loss-tf.reduce mean(tf.square (preds- y) ) 

23 gptimizer- tf.train.Adamoptimizer (learning rate- 0.001) 

24 training op- cptimizer.minimize (loss) 


26 with tf.Session() as sess: 

27 tf.global variables initializer () .run() 

28 R, max=30, 100 

29 X train, y train=get_sanples (100, r max, R) 

30 X test, y test-get samples(100, r max, R) 

3l for iteration in range (1000) : 

sess.run(training op, feed dict- (X: X train, y: y train]) 

if iteration% 100 ==0: 
mse- loss.eval (feed dict- (X: X test, y: y test]) 
print (“iteration () : MSE= ()" .format (iteration, mse)) 


图 9.26 (55D 


在 图 9. 26 所 示 的 算法 中 ,第 4.5 行 实现 式 (9.7) 中 的 时 间 序 列 。 第 7 一 13 行 实现 get_ 
samples 函数 来 生成 样本 时 间 序 列 。 此 处 需要 的 参数 是 以 下 3 个 : @ 样 本 时 间 序 列 的 个 数 
n samples; @ 样 本 时 间 序 列 的 最 大 可 能 时 间 rss; @ 样 本 时 间 序列 的 长 度 R。 第 8 行 对 每 
个 样本 时 间 序 列 都 生成 一 个 起 始 时 间 x。。 由 于 序列 的 结束 时 间 十 R 一 1 不 能 超过 nuu A 
此 ,这 些 ro ABE S ELO ru 一 R) 区 间 。 第 9 行 生成 序列 ono 十 1,…,m 十 R。 第 10 行 用 
了 表示 式 (9.7) 中 的 时 间 序 列 在 7o ,ro 十 1,… ,ro 十 R 的 部 分 。 第 11 行 对 每 个 ro 生成 一 个 样 
本 时 间 序 列 x*={z(0),z(1),…,z(R 一 1)} ,其 中 z(r)= 王 Fo 二 r),r 一 0,1,…,R 一 1。 第 
12 行 对 每 个 样本 时 间 序 列 生成 对 应 的 标签 y — f Gro RO. 

第 15 一 24 行 构建 循环 神经 网 络 的 计算 图 。 第 17、18 行 声明 表示 特征 与 标签 的 张 量 X 
和 y。 第 19 行 中 的 BasicRNNCell 是 TensorFlow 对 记忆 单元 的 实现 。BaiscRNNCell 需要 
两 个 输入 参数 : 四 记忆 单元 中 的 神经 元 个 数 n_units, 这 也 是 该 记忆 单元 的 输出 向 量 的 维度 ; 
加 激活 函数 c。 声 明了 一 个 记忆 单元 之 后 ,TensorFlow 通过 第 20 行 中 的 nn. dynamic_rnn 
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循环 地 计算 并 输出 每 条 训练 数据 ,这 一 过 程 称 为 循环 神经 网 络 的 展开 。nn. dynamic_rnn f 
要 3 个 参数 : @ 第 25 行 声明 的 记忆 单元 ; @ 输 入 X; @ 数 据 的 类 型 ,这 一 信息 用 于 生成 初始 
状态 向 量 。nn. dynamic_rnn 有 两 个 输出 : 第 一 个 输出 states 是 每 一 个 时 刻 的 输出 状态 
s(1),s(2),…,s(R) ,第 二 个 输出 final. state 是 最 终 的 输出 状态 s(R)。 在 第 21 行 通过 一 个 
全 连接 层 对 其 做 出 变换 ,将 其 转换 为 一 维 向 量 作为 回归 问题 的 输出 。 在 计算 图 的 最 后 ,第 
22—24 行 定 义 损失 函数 为 均 方 误差 损失 ,并 用 随机 梯度 下 降 算 子 来 优化 均 方 误差 。 

定义 了 计算 图 之 后 , 接 下 来 ,在 算法 的 第 26 一 35 行 运行 这 个 计算 图 ,进行 模型 的 训练 与 
测试 。 其 中 ,第 28 一 30 行 调用 第 7 行 实现 的 get. samples 函数 分 别 生成 100 条 训练 数据 与 
100 条 测试 数据 。 运 行 图 9.26 中 的 程序 ,在 经 过 1000 轮 随 机 梯度 下 降 之 后 ,模型 在 测试 数 
据 上 的 均 方 误差 低 至 0. 0001。 用 该 模型 对 起 始 时 间 ro 分 别 是 0,1,…,49 的 50 个 样本 时 间 
序列 的 标签 /(30) ,了 (31),…,f(79) 进 行 预 测 ,结果 见 图 9.27。 从 图 9.27 可 以 看 出 ,模型 预 
测 值 十 分 接近 标签 实际 取 值 。 


标签 实际 取 值 
sapa 模型 预测 值 


0 
-2 
E 

s - 

0 10 20 30 40 50 


图 9.27 样本 时 间 序 列 标签 的 实际 取 值 与 预测 值 


多 层 循 环 神 经 网 络 也 可 用 于 求解 例 9.7 的 时 间 序 列 自 回归 问题 。 在 图 9. 28 所 示 的 算 
法 中 ,TensorFlow 构建 了 一 个 两 层 的 循环 神经 网 络 来 解决 时 间 序 列 预测 问题 。 它 与 图 9. 26 
中 的 单 层 循环 神经 网 络 的 唯一 区 别 在 于 图 9. 28 中 的 第 19~25 行 。 图 9. 28 的 第 19 行 定义 
了 一 个 layers 数组 ,用 于 存储 第 20,21 行 中 生成 的 两 个 循环 神经 网 络 层 。 这 两 个 循环 神经 
网 络 层 中 分 别 有 50 和 20 个 神经 元 。 第 24 行 中 的 MultiRNNCell 是 TensorFlow 对 多 层 循 
环 神经 网 络 的 实现 ,只 需 在 声明 时 指定 一 个 包含 多 个 层 的 数组 即 可 ,在 第 24 行 指定 数组 为 
第 19 行 中 生成 的 layers。 第 25 行 通 过 dynamic_rnn 展开 循环 神经 网 络 。 与 单 层 循环 神经 
网 络 类 似 ,dynamic_rnn 展开 之 后 有 两 个 返回 值 : states 和 final_state。 在 一 个 二 层 的 时 长 
为 R 的 循环 神经 网 络 展开 中 estates 包含 各 层 各 时 刻 的 状态 输出 s” O0 11.2. LL. r—1. 
2,*.R, final state 只 包含 最 后 时 刻 R 的 各 层 状 态 输 出 2 (R) 11.2. L. TEXT BET 
中 ,只 需要 最 后 一 层 在 最 后 时 刻 的 输出 s? CRO , 即 final state 的 最 后 一 行 。 所 以 ,第 26 行 中 
将 final. state[ 一 1 作为 全 连接 层 的 输入 ,并 将 其 转换 成 一 个 实数 输出 。 


243 


机 器 学 习 算 法 导论 l 


inport tensorflow as tf 
import numpy as np 


def time series(r): 
return r/10.0* np.sin (r/10.0) 


def get sanples(n samples, r max, R): 
rO-np.randam.rand(n samples, 1) * (r max -R) 
r-rO*np.arange(0, R * 1) 
f-time series (r) 

x- f[ :, 0:R] .reshape (7 1, R, 1) 
y= f :, R] -reshape( 1, 1) 
retum x, y 


cO 0-005 U lI ^ 


Bed Hg: 
OQ 5 r T 


n inputs-l 

n outputs=1 

X- tf.placebolder(tf.float32, [None, R, n inputs]) 

y-tf.plaoebolder (tf.float32, [ None, n outputs]) 

layers =[] 

layer 1-tf.contrib.mn.BasicRNNCell (mm units- 50, activation- tf.nn.relu) 
layer 2- tf.contrib.rmn.BasicRNNCell (num units- 20, activation- tf.nn.relu) 
layers.append (layer 1) 

layers.append (layer 2) 

24 muti layer cell-tf.contrib.mn.MiltiRNNCell (layers) 

25 states, final state-tf.nn.dynamic rnn (multi layer cell, X, dtype- tf.float32) 
26 preds-tf.layers.dense(final state - 1], n outputs) 

27 1loss-tf.reduce mean(tf.square (preds- y) ) 

28 cptimizer-tf.train.Adamoptimizer (learning rate- 0.001) 

29 training op= aptimizer.minimize (loss) 


BRBRBSESSS 
6555 


N 
Ù 


31 with tf.Session() as sess: 

32 tf.glcbal variables initializer () .run() 

33 R, r max- 30, 100 

34 X train, y train-get samples(100, r max, R) 
35 X test, y test-get samples(100, r max, R) 
36 for iteration in range (1000) : 


3] sess.run(training op, feed dict- (X: X train, y: y train]) 
38 if iteration $ 100- — 0: 

39 mse —loss.eval(feed dict- (X: X test, y: y test]) 

40 print("iteration () : MSE- (]".formet (iteration, mse)) 


图 9.28 时 间 序 列 自 回归 问题 的 多 层 循环 神经 网 络 算法 


用 图 9. 28 中 的 多 层 循环 神经 网 络 模型 对 起 始 时 间 ro 分 别 是 0,1,…,49 的 50 个 样本 时 
间 序 列 的 标签 f(30). f (31) «£F (79)3lE GT BUB ,得 到 的 结果 类 似 于 图 9. 27。 在 例 9.7 这 
样 简单 的 例子 中 ,多 层 循环 神经 网 络 的 预测 效果 与 单 层 循环 神经 网 络 类 似 。 然 而 在 更 加 复 
杂 的 问题 中 ,多 层 循环 神经 网 络 可 能 比 单 层 循环 神经 网 络 更 具 预 测 优势 。 


9.2.3 时 间 反 向 传播 算法 


图 9. 26 和 图 9. 28 的 循环 神经 网 络 算法 都 使 用 随机 梯度 下 降 算法 来 训练 模型 。 在 计算 
损失 函数 对 每 一 个 参数 的 梯度 时 ,循环 神经 网 络 采用 的 算法 被 称 作 时 间 反 向 传播 算法 。 时 
间 反 向 传播 算法 是 第 8 章 中 的 神经 网 络 反 向 传播 算法 在 循环 神经 网 络 中 的 推广 。 

反 向 传播 算法 的 思想 是 : 将 损失 函数 工 对 神经 网 络 的 最 后 一 层 输 出 wv” 的 梯度 8 = 


了 2 后 层 层 传播 至 每 一 层 ,得 到 了 对 每 一 层 的 导数 8” 一 元 后 。 随 后 ,再 根据 链 式 法 则 计算 出 


EP 
也 对 权重 矩阵 WO ffs EEUU b” 的 梯度 。 
将 反 向 传播 算法 的 思想 用 到 循环 神经 网 络 中 ,每 一 个 时 间 所 对 应 的 记忆 单元 可 以 看 成 
是 神经 网 络 的 一 层 ,这 个 记忆 单元 输出 的 状态 可 以 看 成 是 该 层 的 输出 ,而 损失 函数 工 可 以 看 
成 是 最 后 一 层 的 输出 s(R) 的 函数 。 图 9. 29 是 上 述 思 想 的 一 个 示意 图 。 
s(0) s(1) sir) s(R) 


TOERNEE 


图 9.29 循环 神经 网 络 中 的 反 向 传播 算法 


图 9. 29 中 ,时 刻 "一 0 对 应 的 记忆 单元 是 神经 网 络 的 第 一 层 , 该 层 的 输出 是 s(1)。 时 刻 
r=1 对 应 的 记忆 单元 是 神经 网 络 的 第 二 层 , 该 层 的 输出 是 s(2)。 以 此 类 推 ,时 刻 r—R—1 
对 应 的 记忆 单元 是 神经 网 络 的 第 尺 层 ,该 层 的 输出 是 sCR)。 因 此 ,可 以 用 与 反 向 传播 算法 
类 似 的 方法 来 计算 工 对 各 个 参数 的 梯度 。 由 于 在 循环 神经 网 络 中 ,每 个 时 间 对 应 神经 网 络 
中 的 一 个 层 , 因 而 ,将 二 对 各 参数 梯度 的 计算 方法 称 为 时 间 反 向 传播 算法 。 

在 一 个 循环 神经 网 络 中 ,如 果 记 忆 单 元 有 m 个 神经 元 ,特征 组 是 维 列 向 量 , 则 权重 矩 
阵 W 是 一 个 mX(m 十 n) 和 矩阵 。 为 了 叙述 方便 ,将 s(x) 和 x(7) 分 别 简 记 成 s, 和 x,, 并 将 W 表 
AR W-— (W,.W,). H'B.W, fW. 分 别 表示 W 的 前 m 列 和 后 n 列 。 设 激活 函数 为 o, 则 
第 7 个 时 刻 的 记忆 单元 的 输出 为 

s, = o(W, ^s; HW, xb), r=1,2,,R (9. 12) 

假设 循环 神经 网 络 的 损失 函数 为 上。 在 回归 问题 中 ,L 是 均 方 误差 ;在 分 类 问题 中 , 是 


交叉 粹 。 因 此 ,需要 计算 的 梯度 是 <、 和 中 


IW, `3W, ^ ab^ 


NI 


时 间 反 向 传播 算法 首先 要 计算 梯度 8 =, 循环 神经 网 络 将 ss 传人 一 个 全 连接 
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1 全 连接 层 将 其 转换 为 指定 维度 的 输出 向 量 。 如 果 用 U 表示 该 全 连接 层 的 权重 矩阵 , 则 模 
型 输出 的 是 QU。，sR。 在 回归 问题 中 ,损失 函数 是 均 方 误差 ,因此 有 二 一 (U .sg 一 y) ,此 时 
6 二 2U07T(U。 sg 一 y) ;在 分 类 问题 中 ,可 以 计算 出 63==UT(U sg 一 y) 。 

计算 出 8 之 后 ,时 间 反 向 传播 算法 就 可 以 反 向 递 推 地 ,对 7 二 R 一 1,R 一 2,…,1 计算 出 
相应 的 6"”。 与 反 向 传播 算法 完全 类 似 , 如 果 用 og 二 o W, * s Wy $ xi HORR MN 
PRÉC o ÆW, * s, HW, * xa Hb 处 的 导数 , 则 根据 链 式 法 则 可 以 得 出 


gc»? —WwIQesss. (9.13) 
上 式 中 的 符号 * 是 哈达 玛 乘积 。 
接 下 来 ,再 根据 链 式 法 则 计算 。 在 这 一 步 中 ,时 间 反 向 传播 算法 与 反 向 传播 算法 略 


有 不 同 。 在 循环 神经 网 络 中 ,所 有 记忆 单元 共享 同一 组 参数 。 所 以 ,每 一 时 刻 都 有 相同 的 权 
重 和 矩阵 Ws,。 将 损失 函数 工 看 作 是 s,s,… ,sg 的 函数 。 根 据 链 式 法 则 


7 E 
O AR su m 
TAn 2 (CD (9.14) 
同样 地 可 以 计算 出 
2l R 
Lc c P (D s ul T 
aw. > a 0 xL (9. 15) 
IL E 
d a DB/ 
3 PC o'n) (9.16) 


式 (9.14) 至 式 (9. 16) 就 是 时 间 反 向 传播 算法 对 各 参数 的 梯度 计算 公式 。 
9.2.4 长 短 时 记忆 基本 概念 


在 例 9.7 中 ,只 用 循环 神经 网 络 就 取得 了 理想 的 效果 。 然 而 ,在 一 些 时 长 R 较 大 的 问题 
中 ,基本 的 循环 神经 网 络 的 效果 可 能 不 够 理想 。 其 主要 的 原因 是 梯度 消逝 现象 。 
进行 随机 梯度 下 降 时 ,循环 神经 网 络 是 通过 时 间 反 向 传播 算法 来 计算 损失 函数 对 各 


参数 的 梯度 。 在 时 间 反 向 传播 算法 中 ,关键 的 步骤 是 对 任意 时 刻 + 计算 3” 一 4。 根据 


n N 
式 (9.13), 有 
à? WI (8*9. g,) — WE eg 
一 … = (WI) (BC 。 OR1° Gg? o PAD (9.17) 
从 式 (9.17) 可 以 看 到 ,85 的 计算 式 中 含有 连续 的 哈达 玛 积 ok_i*ag_。。…*a:。 许 多 常用 的 激 
活 函 数 的 导数 都 恒 小 于 1。 例 如 , 当 o 是 Sigmoid 激活 函数 时 , 它 在 任意 点 处 的 导数 o 都 不 
超过 1/4; 当 o 是 TanH 激活 函数 时 , 它 在 任意 点 处 的 导数 o^ 都 严格 小 于 1。 当 时 长 R 的 值 
很 大 时 ,如 果 较 小 , 则 多 个 哈达 玛 积 gk_1°og-，*…*60/ 的 值 就 会 接近 于 0, 从 而 导致 6” 非 常 
小 。 这 就 是 所 谓 的 梯度 消逝 现象 。 在 一 个 时 长 R 较 大 的 时 间 序 列 中 ,梯度 消逝 现象 导致 循 
环 神经 网 络 忽略 时 间 序 列 早期 的 信息 ,从 而 影响 模型 的 效果 。 
为 了 解决 梯度 消逝 的 问题 ,在 循环 神经 网 络 中 引入 长 短 时 记忆 单元 的 功能 。 长 短 时 记 
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忆 单 元 简称 为 LSTM ,是 其 英文 名 Long-Short Term Memory 的 首 字母 缩写 。LSTM 是 对 
图 9. 22 中 的 记忆 单元 的 加 强 。 一 个 长 短 时 记忆 单元 的 状态 输入 包括 两 部 分 : 一 个 向 量 eE 
R" 称 为 长 时 记忆 , 男 一 个 向 量 h€ R" 称 为 短 时 记忆 。 除 此 之 外 ,特征 组 xER" 是 另 一 部 分 输 
入 。 通 过 一 系列 操作 ,长 短 时 记忆 单元 输出 一 个 新 的 长 时 记忆 ce ER" 和 一 个 新 的 短 时 记忆 
h € R^ 。 将 状态 向 量 分 成 长 时 记忆 与 短 时 记忆 两 部 分 ,是 长 短 时 记忆 单元 解决 梯度 消逝 问 
题 的 核心 思想 。 长 时 记忆 能 够 选择 性 地 记录 时 间 序 列 在 各 个 时 段 的 信息 。 尽 管 时 间 序 列 的 
时 长 可 能 很 长 ,长 时 记忆 能 够 将 有 价值 的 早期 信息 传承 至 时 间 序 列 的 后 期 ,从 而 提高 循环 神 
经 网 络 的 效果 。 

图 9. 30 是 长 短 时 记忆 单元 的 内 部 结构 的 示意 图 。 在 长 短 时 记忆 单元 内 部 有 4 个 门 。 
每 个 门 都 是 一 个 含有 m 个 神经 元 的 全 连接 层 , 它 们 与 短 时 记忆 hh 和 特征 组 x 相连 。 这 4 个 
门 的 作用 如 下 、: 
信号 门 : 类 似 于 一 个 普通 的 记忆 单元 中 的 层 。 综 合 短 时 记忆 hh 和 当前 的 特征 组 x 得 
到 当前 的 信息 。 
RAT: 决定 信号 门 的 输出 中 应 当 载 入 长 时 记忆 cc 以 长 期 保留 的 信息 。 
遗忘 门 : 根据 短 时 记忆 hh 和 当前 特征 组 x 决定 应 当 遗 忘 的 长 时 记忆 c 中 的 信息 。 
。 载 出 门 : 根据 新 的 长 时 记忆 6 生成 新 的 短 时 记忆 户 , 为 下 一 时 刻 做 准备 。 


输出 长 时 记忆 = 和 输出 短 时 记忆 
长 短 时 记忆 单元 " 2 
E o 
y i g o 


men| aanl esaj gan 
o-0o) (o-o) (o-o) (o-o 


输出 长 时 记忆 e 输入 短 时 记忆 有 h 输入 特征 x 
图 9.30 长 短 时 记忆 单元 的 内 部 结构 


信和 号 门 的 激活 函数 是 TanH 函数 ,其 余 3 个 门 的 激活 函数 都 是 Sigmoid 函数 。 设 信号 
门 、 载 入 门 、 遗 忘 门 与 载 出 门 的 权重 和 矩阵 与 偏转 项 分 别 为 (Wi > be ) a CW: s bi), (Werbe) A 
(W, «b, , 则 它们 的 输出 分 别 为 


h 
g= hm 上 n.) (9.18) 
x 
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h 
i= sigmoia[w.[ Iu J 9. 19) 
3x. 
. h 
f= siemoia(w,[ +e) (9. 20) 
A 
h 
o = simoia[w | +a) (9.21) 
x 


其 中 ,Ws Wi We WJA m X (md n) SEE eb, 、bi、by、b。 均 为 m 维 列 向 量 。 

在 式 (9.20) 中 ,由 于 遗忘 门 的 激活 函数 是 Sigmoid 函数 ,所 以 f 的 每 一 个 分 量 的 取 值 都 
在 (0,1) 区 间 之 内 。 因 此 ,哈达 玛 乘积 fe 可 以 达到 遗忘 不 重要 的 长 时 记忆 的 效果 。 例 如 ， 
it e=(1,2,3),f=(0.01,0. 99,0. 99) 9l] fec 二 (0.01,1.98,2.97)。 可 以 认为 ,c 的 第 一 位 
被 遗忘 了 。 类 似 地 ,i*g 可 以 达到 选 出 信号 门 输出 g 中 的 重要 信息 的 功能 。 所 以 ,新 的 长 时 
记忆 < 有 如 下 的 计算 公式 ， 


c 一 JJ。c 十 i。8 (9. 22) 
新 的 短 时 记忆 天 由 载 出 门 从 新 的 长 时 记忆 e 中 节选 生成 , 它 的 计算 公式 为 
六 一 osC (9. 23) 


图 9.31 是 一 个 含有 长 短 时 记忆 单元 的 循环 神经 网 络 示意 图 。 图 中 用 长 短 时 记忆 单元 
代替 了 图 9. 23 中 的 普通 记忆 单元 。 最 后 ,将 时 刻 R 的 短 时 记忆 h(R) 输 入 一 个 全 连接 层 ,并 
将 其 转换 为 指定 维度 的 模型 预测 。 设 时 刻 r 的 长 短 时 记忆 单元 中 的 信号 门 、 载 入 门 、 遗 忘 门 
与 载 出 门 的 输出 分 别 为 gm i SO of? Lt] 


cont 一 f » c? pi? o g^? (9. 24) 
hn — o^ ° ce (9. 25) 
预测 值 
全 连接 层 
OO-O 
c(1) (1) c2) (2) c(R-1) A(R-1) 
Em -~ ED “| e a ms 
| i c(R) 4 h(R) 
por g o (rieo) i figo 
i 
ETT LI 
c(0) A0) x(0) x(1) x(R-1) 


图 9.31 含有 长 短 时 记忆 单元 的 循环 神经 网 络 示意 图 


长 短 时 记忆 单元 的 功能 ,是 解决 梯度 消逝 问题 。 在 一 个 带 长 短 时 记忆 单元 的 循环 神经 
网 络 中 ,用 工 表示 模 型 的 损失 函数 。 用 c, 和 hh, 分别 简 记 7 时 刻 的 长 时 记忆 输出 c(r) 和 短 时 
记忆 输出 h(r)。 时 间 反 向 传播 算法 的 关键 步骤 是 ,计算 L 对 每 一 时 刻 的 输出 状态 的 梯度 。 


对 应 于 长 短 时 时 记忆 单元 ,就 是 计算 
2L 


= os (9. 26) 
= x (9.27) 

根据 式 (9.25) ,有 
ai? — o7? 。 go (9. 28) 


所 以 只 要 能 确保 对 任意 时 刻 r AA EKKO ,就 能 解决 梯度 消逝 问题。 
以 下 用 8" 简 记 3:? 。 根 据 式 (9. 24) 和 链 式 法 则 ,有 
go cfe gem po. gem Ven ss 

zs a gr a s pre o 80 (9. 29) 
从 式 (9.29) 中 可 以 看 到 ,如 果 从 时 刻 ~ 到 尺 的 过 程 中 ,遗忘 门 都 决定 应 当 保留 长 时 记忆 的 
某 一 位 记 则 J” ,fm ?,… ,了 的 第 i 位 的 取 值 都 较 大 。 从 而 6" 与 6 的 第 i 位 就 十 分 接 
近 。 换 句 话说 ,在 重要 的 长 时 记忆 的 分 量 上 ,梯度 消逝 问题 得 到 了 解决 。 对 于 遗忘 门 选择 
要 遗忘 的 分 量 ,梯度 消逝 问题 依然 存在 。 但 由 于 这 是 要 被 遗忘 的 分 量 , 所 以 在 那些 分 量 上 的 
梯度 消逝 对 模型 效果 没有 影响 。 这 就 是 长 短 时 记忆 解决 梯度 消逝 问题 的 原理 。 


9.2.5 长 短 时 记忆 的 实现 


在 TensorFlow 中 实现 了 长 短 时 记忆 单元 。 图 9. 32 中 的 算法 构建 了 一 个 含有 长 短 时 记 
忆 单 元 的 循环 神经 网 络 ,来 解决 例 9.7 的 时 间 序 列 预测 问题 。 


import tensorflow as tf 
import numpy as np 


def time series(r): 
retum r/10.0* np.sin(r/10.0) 


def get samples(n samples, r max, R): 
r0-np.randm.rand(n samples, 1) * (r max-R) 
r-r0*np.arange (0.0, R+ 1) 

10 f-time series (r) 

11 x-f:, O:R].reshape(- 1, R, 1) 

12 yf :, R].reshare(- 1, 1) 

13 retum x, y 


o 0-10 O60 tuc 


15 n inputs-1 
16 n outputs- 1l 


图 9.32 含有 长 短 时 记忆 单元 的 循环 神经 网 络 算法 
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17 nm units =50 
18 ¥tf.plaæholdr(tf.float32, [None, R, n inputs] ) 

19 y-tf.placeholder(tf.float32, [None, n outputs] ) 

20 lstm cell-tf.contrib.rnn.BasicLSIMCell (nm units) 

21 states, final state= tf.nn.dynamic mn (lstm cell, X, dtype- tf.float32) 
22 preds-tf.layers.dense (final state.h, n outputs) 

23 1loss-tf.reduce mean(tf.square (preds- y) ) 

24 cptimizer-tf.train.7demOptimizer (learning rate- 0.001) 

25 training op= cptimizer.minimize (loss) 


28 with tf.Session() as sess: 

29 tf.gldbal variables initializer().run() 

30 R, r max- 30, 100 

31 X train, y train-get samples(100, r max, R) 
32 X test, y test-get samples(100, r max, R) 
33 for iteration in range (1000) : 


34 sess.run(training op, feed dict- (X: X train, y: y train]) 

35 if iteration % 100- — 0: 

36 mse loss.eval (feed dict- (X: X test, y: y test}) 

37 print ("iteration () : ME = ()".format (iteration, mse)) 
图 9.32 (585 


与 图 9. 26 中 的 算法 对 比 , 图 9. 32 中 算法 的 不 同 之 处 在 于 第 20—22 行 。 在 第 20 行 中 ， 
明了 一 个 BasicLSTMCell。 这 就 是 TensorFlow 对 长 短 时 记忆 单元 的 实现 。 在 声明 时 ,只 
痢 定 每 个 门 中 的 神经 元 个 数 即 可 。 这 也 是 长 时 记忆 向 量 ec 和 短 时 记忆 向 量 h 的 维度 。 在 
例 中 ,指定 50 个 神经 元 。 第 21 行 通过 dynamic_rnn 来 展开 循环 神经 网 络 。 展 开 的 结果 
日 是 各 时 刻 的 状态 输出 states 以 及 最 终 状态 输出 final_state。 与 图 9. 26 中 的 展开 结果 不 
的 是 : states 中 的 每 一 时 刻 的 输出 都 包含 长 时 记忆 向 量 c 和 短 时 记忆 向 量 h。 同 样 ,final_ 
state 也 包含 这 两 部 分 ,可 以 通过 final. state. c 与 final. state. h 分 别 获 得 长 时 与 短 时 记 向 量 
的 取 值 。 在 第 28 行 中 ,将 final state. h 作为 全 连接 层 的 输入 ,并 转换 为 最 终 的 模型 预测 。 

除了 上 述 的 不 同 之 处 ,图 9. 32 的 算法 的 其 余部 分 都 与 图 9. 26 相同 。 运 行 图 9. 32 中 的 
算法 ,可 以 得 到 与 图 9. 26 的 算法 相似 的 时 间 序 列 预测 效果 。 


mp 53cm xk 


小 结 


深度 学 习 是 人 工 智 能 领域 的 前 沿 课题 ,也 是 许多 重大 科技 突破 的 源 动 力 。 在 本 章 中 , 介 
绍 了 两 类 最 基本 的 深度 学 习 算法 一 一 卷 积 神经 网 络 与 循环 神经 网 络 。 
卷 积 神经 网 络 与 普通 的 神经 网 络 的 区 别 在 于 , 它 的 每 一 个 神经 元 都 只 与 前 一 层 中 的 一 
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个 局 部 相连 ,并 且 同 一 层 中 的 神经 元 共享 同一 个 滤 镜 。 这 一 机 制 是 模拟 人 类 视觉 神经 观察 
图 像 的 原理 。 正 因 如 此 , 卷 积 神经 网 络 特别 擅长 处 理 与 图 像 相关 的 机 器 学 习 任 务 。 

上 下 文 处 理 是 人 类 大 脑 的 另 一 项 重要 功能 。 例 如 ,通过 语 境 , 人 们 可 以 预测 一 段 对 话 中 
可 能 出 现 的 下 一 句 话 。 通 过 上 下 文 , 人 们 还 可 以 将 一 段 含有 遗失 文字 的 记录 补 齐 。 将 这 样 
的 任务 抽象 成 数学 概念 ,就 是 对 时 间 序 列 的 预测 。 循 环 神经 网 络 就 是 一 类 针对 时 间 序 列 型 
任务 的 有 效 算法 。 通 过 状态 向 量 , 循 环 神经 网 络 保留 了 一 个 时 间 序 列 早期 的 记忆 ,从 而 能 够 
根据 上 下 文 对 时 间 序 列 作出 预测 。 本 章 中 还 介绍 了 循环 神经 网 络 的 一 个 加 强 算法 一 长 短 
时 记忆 单元 。 它 的 核心 功能 是 为 循环 神经 网 络 增加 遗忘 的 功能 ,从 而 略 去 次 要 的 信息 ,更 好 
地 保留 重要 的 信息 。 

最 后 应 当 指出 ,深度 学 习 正 处 在 蓬勃 发 展 的 阶段 。 本 章 介 绍 的 内 容 只 是 最 基本 的 深度 
学 习 算 法 。 对 深度 学 习 有 兴趣 的 读者 可 以 本 章 的 知识 为 基础 ,进一步 学 习 更 加 前 沿 的 深度 
学 习 理 论 。 


习题 
9.1 考察 如 下 两 个 矩阵 : 
i d 3 
1 10 10 1 | 2 "4 
y= w= 
1 10 10 1 = g 
ij à i d 


(1) 计算 V 与 W 的 卷 积 VxW。 

(OD 计算 V 与 W 的 步 长 为 2X2 的 卷 积 。 

(3) 计算 V 55 W 的 带 填充 的 卷 积 。 

OD 对 (1) 中 的 卷 积 计 算 结 果 进 行 2X2 的 最 大 值 池 化 。 

(5) 对 (3) 中 的 卷 积 计 算 结 果 进 行 2X2 的 平均 值 池 化 。 

(6) 用 TensorFlow 验证 (1) 一 (5) 中 的 计算 。 

9.2 考察 如 下 结构 的 卷 积 神经 网 络 : 第 一 层 是 一 个 含有 两 个 2X2 的 滤 镜 的 卷 积 


l E 
其 中 的 两 个 让 镜 分 别 为 | 。 | 和 | i |. semen snb nae 2x2 的 最 


大 值 池 化 层 , 池 化 时 不 采用 填充 功能 。 第 二 层 是 一 个 含有 两 组 1X2 的 滤 镜 的 卷 积 层 。 对 上 
一 层 输 出 的 两 个 特征 镜像 ,第 一 组 滤 镜 分 别 为 [1,0] 和 [一 1,0], 第 二 组 滤 镜 分 别 为 [0,1] 和 
[0.—1]. 。 如 果 上 述 卷 积 神经 网 络 的 输入 为 

6 9 8 

f 3 r| 
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Wil 


Xx = 


CD 计算 相应 的 输出 。 
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(2) 在 TensorFlow 中 实现 本 题 中 的 卷 积 神经 网 络 , 并 验证 TensorFlow 的 计算 结果 是 
否 与 (1) 中 的 结果 一 致 。 

9.3 图 9.19 中 的 算法 构建 了 一 个 卷 积 神经 网 络 来 解决 猫 和 狗 图 片 识别 问题 。 算 法 的 
每 个 输入 是 一 个 128X128X3 的 张 量 X, 表 示 一 张 含 有 3 个 频道 的 128X128 的 像素 矩阵 。 
网 络 含有 4 个 卷 积 层 。 每 个 卷 积 层 输出 32 个 镜像 。 每 个 滤 镜 是 3X3 的 滤 镜 ,并 且 采 用 了 
填充 功能 。 每 个 卷 积 层 输出 都 进行 2X2 的 最 大 值 池 化 , 步 长 是 2X2, 并 且 池 化 时 采用 了 填 
充 功能 。 在 将 第 4 个 卷 积 层 的 输出 池 化 后 ,在 输入 全 连接 层 时 ,需要 对 其 进行 扁平 化 。 请 计 
算 扁平 化 得 到 的 向 量 维 数 。 

9.4 花卉 识别 问题 。 

花卉 识别 问题 的 任务 是 判断 图 片 中 花卉 的 品种 。 在 花卉 识别 问题 的 数据 集中 中 ,有 210 
张 图 片 。 数 据 集 涵盖 10 种 不 同 的 花卉 种 类 : 夹 竹 桃 (0) KRA) ERE DEEG), 
大 滨 菊 (4) ,桔梗 花 (5) 、 紫 罗兰 (6) ,金光 菊 (7) .牡丹 (8) .梦幻 草 (9) 。 图 9. 33 是 数据 集中 的 
4 张 图 片 采样 。 


图 9.33 花卉 数据 集 采样 


下 载 数 据 文件 夹 flower_images 至 当前 目录 .并 通过 图 9. 34 中 的 程序 读 取 数据 。 请 基 
于 图 9. 34 中 的 程序 构建 一 个 卷 积 神经 网 络 模型 来 完成 花卉 品种 识别 任务 。 


O 原 数 据 来 自 https://www. kaggle. com/olgabelitskaya/the-dataset-of-flower-images/data ,也 可 从 GitHub 网 站 
的 本 书页 面 下 载 。 
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import numpy as np 
import pandas as pd 
import cv2 


def get. data): 
d£-pd.read csv("./flower images/flower labels.csv") 
files-dfÍ 'file'] 
labels-df "label'].values 
images-[.] 


0 0 0 0 wN PP 


10 for file in files: 

1 image- cv2.imread("./flower images/" file) 

12 image- cv2.resize (image, (128, 128), 0, 0, cv2.INTER LINEAR) 
13 image np.miltiply (image, 1.0/255.0) 

14 images.append (image) 

15 retum np.array (images), labels 


图 9.34 读 取 花 卉 数据 的 程序 
9.5 设 c 是 一 个 循环 神经 网 络 的 激活 函数 。 证 明 : 
CD c 是 Sigmoid 激活 函数 时 , 它 在 任意 点 处 的 导数 都 不 超过 1/4. 
(2) c 是 TanH 激活 函数 时 , 它 在 任意 点 处 的 导数 o 都 严格 小 于 1 。 
9.6 考察 图 9. 35 中 的 记忆 单元 。 
MERES? 


输入 状态 s=(1,2)” ”输入 特征 x=(3,4,5)" 
图 9.35 习题 9.6 中 的 记忆 单元 


其 中 ,激活 函数 0 为 ReLU ,权重 和 矩阵 W 与 偏 置 项 b 分 别 为 
l. 2 —1 1 -| | || 
w= + ġ= 
0 一 1 tZ 2 —1 
现 给 定 输入 状态 s— (0.207. 以 及 输入 特征 x— (3.4.07, 
CD 计算 该 记忆 单元 的 输出 了 。 


(2) 用 TensorFlow 验证 (1) 中 的 计算 。 
9.7 考察 图 9. 36 的 循环 神经 网 络 。 


该 循环 神经 网 络 包含 两 个 记忆 单元 。 激 活 函 数 为 ReLU. WEEE W 与 偏 置 项 b 分 


别 为 
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s(1) sy? 
T i3 122315 
| Hs [o x d 8 引 
oo ~ © (oo = Ọ 
i T j i i [i] 
一 一 = o=ReLU 
s(0)=(0,0)" — x(0)-(1,2,3)' x(1)7(4,5,6)! 


图 9.36 3188 9.7 中 的 循环 神经 网 络 


w=; 2. = 4 JI »-| | 
0 —1 1 $ 2 —1 

现 给 定 初始 输入 状态 s C00 — (0,007, fip AFERE x 在 时 刻 0 与 时 刻 1 的 取 值 如 下 : 
xz(0) 一 (1,2,3)T,x(1) 一 (4,5,6)T。 

COD 计算 循环 神经 网 络 在 时 刻 1 的 输出 s(2)。 

(2) 用 TensorFlow 验证 (1) 中 的 计算 。 

9.8 设 在 一 个 长 短 时 记忆 单元 中 ,信号 门 . 载 人 门 .遗忘 门 和 载 出 门 分 别 有 如 下 权重 拢 
Fe 55 fi FL; 


Il 

m qeeee 
© 

O m.o orom 
— o 

LL = — 


1 
HELL 

W, = ， b= 
0 1 1 1 


现 给 定 输入 长 时 记忆 c= (1.2)7. f A Ri ied h= (3.4) 以 及 输入 特征 x* 王 1。 请 计算 该 
长 短 时 记忆 单元 的 输出 长 时 记忆 c 与 输出 短 时 记忆 Rh. 

9.9 PM2. 5 指数 预测 。 

PM2. 5 指数 是 衡量 空气 质量 的 重要 指标 。PM2. 5 指数 预测 问题 的 任务 是 : 根据 过 去 
一 段 时 期 内 的 PM2. 5 指数 和 天 气 状况 ,预测 下 一 时 刻 的 PM2. 5 指数 。 这 一 问题 的 原始 数 
据 ? 来 自 北京 地 区 2012 一 2017 年 每 一 时 刻 的 PM2. 5 指数 和 天 气 状 况 记 录 。 其 中 ,天 气 状况 
包含 以 下 7 个 信息 : 露水 气温、 气压 `. 风 向 风速、 降雪 以 及 降雨 。 

文件 pollution_seriers. csv 是 原始 数据 的 时 间 序 列 形式 。 文 件 中 的 每 一 行 数据 有 10 
列 ,第 1 列表 示 当 前 时 刻 1, 第 2 一 9 列 分 别 表示 时 刻 1 一 1 对 应 的 PM2. 5 指数 以 及 7 个 天 气 


O 原 数据 来 自 UCI 机 器 学 习 数 据 库 https: //archive. ics. uci. edu/ml/datasets/Beijing 十 PM2. 5 十 Data, 本 题 已 将 原 
数据 转化 成 了 时 间 序 列 的 形式 ,可 从 GitHub 网 站 的 本 书页 面 https://github. com/wangleil8/machine_learning 下 载 。 
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信息 ,第 10 列表 示 时 刻 t 对 应 的 PM2. 5 指数 。 所 以 ,每 条 数据 的 第 2 一 9 列 是 特征 值 , 第 10 
列 是 标签 值 。 图 9. 37 是 读 取 pollution_seriers. csv 的 程序 。 


1 
2 
3 
4 
5 
6 
1 
8 
9 


fram pandas import read csv 


df= read csv("./pollution series.csv") 

values- df.values 

n train hours- 365* 24 

train-valued :n train hours, 1:] 
test-valued n train hours:, 1:] 

X train, y train- trair| :, ya 1l. train :, -i] 
X test, y test- test| :, :- 1], test[ :, - 1] 


请 基于 图 9. 37 中 的 程序 ,设计 带 有 长 短 时 记忆 单元 的 循环 神经 网 络 来 完成 PM2. 


图 9.37 读 取 PM2.5 指数 原始 数据 的 程序 


数 预测 任务 。 


SB aot 降 维 算法 


在 第 2 一 9 章 中 已 经 系统 地 介绍 了 监督 式 学 习 算法 。 在 一 个 监督 式 学 习 问 题 中 ,每 个 数据 
样本 都 含有 特征 组 和 标签 ,学习 的 任务 是 寻找 特征 组 与 标签 之 间 的 关系 。 然 而 ,在 无 监督 学 习 
问题 中 ,每 个 数据 样本 都 仅 含 有 特征 组 , 却 并 不 带 有 标签 ,例如 ,按照 样本 特征 组 呈现 的 聚 群 结 
构 将 样本 分 类 ,对 高 维 的 样本 特征 组 进行 降 维 ,等 等 。 在 实际 应 用 中 ,无 监督 学 习 常常 与 监督 式 学 
习 相 互 配合 来 完成 任务 。 在 一 个 带 有 标签 的 机 器 学 习 问 题 中 ,可 以 先 将 数据 样本 的 标签 隐 去 , 通 
过 无 监督 学 习 对 特征 进行 加 工 和 处 理 。 然 后 ,再 基于 加 工 过 的 特征 组 ,结合 标签 进行 监督 式 学 习 。 

本 章 介绍 一 类 重要 的 无 监督 学 习 算法 一 一 降 维 算 法 。 降 维 算法 的 主要 任务 是 对 高 维 的 
特征 组 做 低 维 近 似 。 高 维 的 特征 组 不 仅 耗费 大 量 的 存储 空间 ,而且 还 会 降低 机 器 学 习 算 法 
的 时 间 与 空间 效率 。 在 降 维 的 过 程 中 ,如 何 尽量 保留 原 特征 组 所 携带 的 重要 信息 ,是 降 维 算 
法 设计 的 主要 考量 。 

10. 1 节 介 绍 主 成 分 分 析 法 。 它 是 最 常用 的 降 维 算 法 之 一 。10. 2 节 介 绍 主 成 分 分 析 的 
核 方 法 。 它 是 主 成 分 分 析 法 的 一 个 加 强 , 其 目的 是 将 主 成 分 分 析 法 应 用 到 某 些 非 线 性 的 数 
据 分 布 上 。10. 3 节 介 绍 线性 判别 分 析 法 。 该 算法 实际 上 属于 监督 式 学 习 的 范畴 。 它 是 结 
合 标签 信息 进行 降 维 的 算法 ,其 目的 依然 是 对 特征 组 降 维 ,因而 在 本 章 中 介绍 该 方法 。10. 4 
节 介绍 流 形 降 维 算 法 , 它 适用 于 d 维 流 形 数 据 的 降 维 问题 。10. 5 节 介绍 自动 编码 器 , 它 是 
深度 学 习 在 降 维 算法 中 的 应 用 。 


10.1 主 成 分 分 析 法 


10.1.1 算法 思想 


在 一 个 降 维 问题 中 ,训练 数据 为 m 个 n 维 向 量 xD ex? ,…,x”ER"”。 对 指定 的 维度 d< 
2; 一 个 降 维 模型 是 从 及 "到 及 的 映射 六 。 其 模型 输出 为 及 (xm ha), nha) € R?, 


对 降 维 模型 的 度量 方式 是 十 分 灵活 多 样 的 ,不 同 的 度量 方式 将 引导 出 不 同 的 降 维 算法 。 

本 节 介 绍 的 主 成 分 分 析 法 就 是 一 个 降 维 算法 。 它 以 降 维 后 数据 的 方差 作为 模型 的 度 
量 。 主 成 分 分 析 法 又 称 为 PCA 算法 。 这 是 它 的 英文 名 Principle Components Analysis ff] Tf 
字母 缩写 。 主 成 分 分 析 法 将 数据 投影 至 低 维 空间 ,并 使 其 投影 方差 尽 可 能 大 。 由 于 方差 能 


表示 一 组 数据 的 信息 量 , 因 此 , 主 成 分 分 析 法 能 够 最 大 程度 地 保 x 
留 原 始 数据 的 信息 量 。 | 
在 详细 介绍 这 一 算法 之 前 ,需要 一 些 数 学 上 的 准备 。 给 定 | 


WA n HEISE x 和 w。 设 是 一 个 单位 向 量 , 即 | w|| Sl 在 w 
几何 上 可 以 定义 x 沿 w 方 向 的 投影 为 x 向 w ORRE 1 w E 
应 的 向 量 ,如 图 10. 1 所 示 。 图 10.1 x 沿 w 方向 的 投影 
在 图 中 , 设 x 与 w 的 夹 角 为 9。 根据 解析 几何 知识 可 知 
cos es (xw) — (Xw) 
Ixl- lwi TT 


所 以 ,x 的 投影 长 度 应 为 上 x cos0 二 (x,w)。 在 意义 明确 的 前 提 下 ,术语 “x 沿 w 方向 的 投 
影 * 也 可 用 于 表示 投影 长 度 (x,w)。 

给 定 一 组 n 维 向 量 x 中 ,x 他,… x，ER" 以 及 一 个 单位 向 量 wER"。 定 义 z,— (X? w) 
为 x 沿 w 方 向 的 投影 ,并 将 m ,zs ,… ,xz 的 方差 


gi -l NM - a0. D 
"i: 
定义 为 x 中 ,x px? 沿 ww 方向 的 投影 方差 。 在 式 (10.1) 中 ， 
EN 
Am o E, 


为 x1 ,zs ，… ,zm 的 平均 值 。 

一 个 降 维 问题 中 , 主 成 分 分 析 法 按 投影 方差 最 大 的 原则 将 m 个 n 维 向 量 组 成 的 训练 
数据 x 中 ax ,… ,x 投影 至 指定 的 d 维 (d< 空间。 具体 步骤 是 : 首先 计算 一 个 维 单位 
向 量 w Vi x x? Lee xn 沿 w 中 方向 的 投影 方差 是 所 有 投影 方向 中 最 大 的 。 然 后 , 算 
法 依次 计算 单位 向 量 w 3 ,ws Lee ow? ,使 得 对 任意 2 二 rdw 与 ww ,wo ABE 
交 , 并 且 xo ax? Lee x0 TR. wm 方向 的 投影 方差 是 所 有 与 ww? , ,wo 都 正 交 的 投影 
方向 中 最 大 的 。 最 后 ,算法 将 每 个 x 映射 成 一 个 d 维 向 量 : 

HELIS = (a9, ww y oa WO b— 1,2, nt 
由 于 算法 将 w ew ,…,w2 取 为 相互 正 交 的 向 量 , 因 此 ,它们 是 互相 独立 的 。 这 使 得 
V w? sy 互相 之 间 没 有 重复 的 信息 ,从 而 能 够 最 大 程度 地 对 数据 的 不 同方 面 进 行 
编码 。 
以 下 具体 介绍 如 何 选取 ww? Le w^, HT f YE RELIER x ax ee xm n 
平均 值 为 全 0 向 量 , 即 


lYNo-g (10.2) 
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如 不 满足 此 条 件 , 则 可 以 通过 平移 使 得 式 (10. 2) 成 立 , 即 ,计算 x0 ,x e x 的 平均 值 向 
量 jp ,然后 按 式 (10. 3) 将 各 向 量 平移 : 
RR —4, p-—1;25-m (10. 3) 
易 知 ,平移 之 后 的 m 个 向 量 的 平均 值 为 全 0 向 量 。 
算法 首先 计算 w., wP MAE x? ax ,…,x” 的 投影 方差 最 大 的 单位 向 量 。 所 
以 ,w ”是 以 下 带 约束 的 最 优化 问题 的 最 优 解 : 


au 
max AD (x? ,w) 
m 


wER t=1 
AR: lwl? —1 (10. 4) 
用 X GR EUR mon WERE: 
DT 
GT 
x= , 
x™T 


则 式 (10. 4) 等 价 于 
maxWw X" Xw 
HAR: ww 二 1 (10.5) 
设 AER 是 约束 条 件 wiw 二 1 对 应 的 拉 格 朗 日 乘 子 , 则 式 (10. 5) 的 拉 格 朗 日 函数 为 
LOw.A) = wi X! Xw — Aw Tw 十 和 
根据 KKT 定理 (附录 A 推论 A. 3.14), 式 (10.5) 的 最 优 解 必须 满足 KKT 条 件 : 


VLOw.A) = 2X" Xw — 2ìw = 0 (10. 6) 
ww= 1 (10. 7) 

并 且 , 当 式 (10.6) 和 式 (10.7) 得 到 满足 时 , 式 (10.5) 的 目标 函数 满足 
WwWIXTXw — À (10.8) 


式 (10. 60 E]. XT Xw — Aw. WARA. 70 RT £A 必 是 矩阵 XITX 的 一 个 特征 根 ,而 
w 必 是 4 所 对 应 的 单位 特征 向 量 。 式 (10. 8) 表 明 , 式 (10. 5) 的 最 优 值 应 当 等 于 XT X 的 最 大 
特征 根 的 值 。 基 于 上 述 分 析 , 主 成 分 分 析 法 应 当 以 如 下 方式 选取 w: 计算 XT X 的 特征 根 
与 特征 向 量 。 设 最 大 的 特征 根 为 hi: ,将 A 对 应 的 单位 特征 向 量 取 为 w i Xw RA X 
第 一 主 成 分 。 

计算 出 第 一 主 成 分 之 后 ,接着 在 第 二 步 计算 w, w 必须 与 wO ERZ, H xD ax uen, 
xM w2 方 向 的 投影 方差 应 是 所 有 与 w2 正 交 的 方向 中 最 大 的 ,所 以 w'? 是 以 下 带 约 束 最 
优化 问题 的 最 优 解 : 


maxw X* Xw 
P 


AR: ww=1 
WW —0 (10. 9) 
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用 4 和 8B 分 别 表 示 与 约束 条 件 ww 王 1 和 wr w= 二 0 对 应 的 拉 格 朗 日 乘 子 。 式 (10. 9) 的 最 优 
解 应 当 满 足 KKT 条 件 : 


X" Xw — à» — Bw? — 0 (10. 10) 
w'w—l (10. 11) 
ww — 0 (10. 12) 


在 式 (10. 10) 等 号 的 两 端 同 时 乘 以 w ,得 到 
0=w (XXw — Aw — pw? ) — w XT Xw — aw w— gw w? (10.13) 
由 于 w 是 XTX 的 特征 根 4, 所 对 应 的 特征 向 量 ,因而 w 3 ”XTX 一 hw ”。 再 根据 式 (10. 10) 
和 式 (10. 12) ,有 


T T T T T P 
w? XT Xw — Aw? w Bw? w? àw? w— Aw? w Bw? w? 


— (10. 14) 
结合 式 (10. 13) 与 式 (10. 14) 就 得 到 B= 二 0。 因 此 ,由 式 (10. 10008 
XTXw = àw (10. 15) 


式 (10.15) 说 明 , J& XTX 的 特征 根 ,w 是 4 所 对 应 的 特征 向 量 。 
由 式 (10.15) 和 式 (10. 11) 可 得 , 式 (10.9) 的 目标 函数 满足 wTXTXWw 二 AwTw 二 A。 这 表 

明 , 式 (10.9) 的 目标 函数 的 最 大 值 是 XIX 的 特征 根 4, 并 且 4 所 对 应 的 特征 向 量 应 当 与 w” 
正 交 。 由 于 XT X 是 一 个 对 称 和 矩阵 ,根据 对 称 和 矩阵 的 正 交 分 解 定理 ,XITX 有 个 实数 特征 根 
A SA > Àn o El Àa sAr ,所 对 应 的 ?个 特征 向 量 相互 正 交 。 基 于 这 一 结论 , 式 (10. 9) 
的 最 优 值 应 当 等 于 XT X. 的 第 二 大 特征 根 4,, 因 而 w 应 取 为 1? 对 应 的 单位 特征 向 量 。 将 
Xw? RH X 的 第 二 主 成 分 。 

依 此 类 推 , 将 w2 取 为 XITX 的 第 ;大 特征 根 人 ;对 应 的 特征 向 量 (i 一 3.4,…,d)。Xw2 y 
为 XX 的 第 i 个 主 成 分 。 

综 上 所 述 , 主 成 分 分 析 法 选取 XT X 的 前 a 个 特征 根 Aa Ae stets Aa 所 对 应 的 单位 特征 向 
量 w w? yw MERX? xP ,… x" 的 d 个 投影 的 方向 。 这 是 最 大 化 投影 方差 的 投 
影 方 式 。 

基于 上 述 思 想 , 记 nXd ABE W— (w. w? vw? )。 主 成 分 分 析 法 对 输入 矩阵 X 的 
降 维 结果 是 Z 二 XW, 其 中 


zt 
是 一 个 mXd 和 矩阵 。Z 89585; 列 由 X 的 第 7 ERARIS d. uL UE OS FER] << 
m .z? 是 对 x” 的 降 维 结果 。 
图 10.2 是 主 成 分 分 析 法 的 算法 描述 。 算 法 的 求解 目标 是 将 一 组 给 定 的 EISE XU. 
xP ,… ,Xx 下降 至 4d HE, 
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主 成 分 分 析 法 
ES 
u- 2j 
m 
for t—1.2.*.m: 


x? x? —p 


& 
x 


T 

(2) 

x 

x= 
xo 

compute eigenvalues of X* X: 422A; Dàn 

Let w” ,w? ,--« Ww" be the corresponding eigenvectors 

W= (w? w? Ve we ) 

return Z— XW 


E 10.2 主 成 分 分 析 法 的 算法 描述 


为 了 评价 主 成 分 分 析 法 的 降 维 效果 ,可 将 降 维 后 的 数据 再 投影 回 原来 的 高 维 空间 ,这 种 
投影 称 为 数据 重 构 。 通 过 数据 重 构 可 以 度量 降 维 的 效果 。 重 构 后 的 数据 越 接近 原始 数据 ， 
降 维 的 效果 越 好 。 

设 w aw? ue w^ € RJ d 个 相互 正 交 的 2 维 单位 向 量 。 在 线性 代数 中 ,将 这 样 一 组 
向 量 称 为 d 维 标准 正 交 基 。 它 们 张 成 一 个 R" 的 d 维 线性 子 空间 : 


(D ) (aD a» (2) 
Un rl D 2 | 


(zw T £2W paet za WP im .mp.tt.zma € R} 


Span(w 
因此 ,Span (w? sw? . «w^? ) 中 的 每 个 维 向 量 都 可 以 用 一 个 d 维 向 量 z — (zi ,zo ,za) 
来 唯一 表示 。 

主 成 分 分 析 法 选 出 的 w? 了 ? ,w3,…,w 中 是 一 组 标准 正 交 基 。 算 法 将 每 个 维 向 量 x 投 
ER d EE z= (zsz). HP, = x.wC)5.r—1.2.7.d. RD Baz 对 应 于 
Span(w sw? , ,wo ) rP B n AE qo] t x — ew Hew? Fd mw OD 。 也 就 是 说 ,可 以 将 
x 看 成 是 x 的 降 维 后 的 向 量 z 在 原 空间 中 的 重 构 。 

主 成 分 分 析 法 的 数据 重 构 算法 可 描述 如 下 。 设 主 成 分 分 析 法 将 数据 xD ix vens 
x" ERRER? 20 ,- ,zm ER, EX 


Xx? —Wz?, l1«rts«m (10. 16) 
则 xO.xO.el x00 RARO .xO. ,x 中 的 重 构 。 如 果 定义 
go 
& d go 
got 


则 式 (10. 16) 等 价 于 X 一 ZWT。 
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10.1.2 算法 实现 


图 10.3 是 对 图 10. 2 中 算法 的 实现 。 在 类 PCA 的 构造 函数 中 指定 数据 需要 降低 到 的 
维度 d. 58 7—15 行 的 fit transform 函数 ,是 主 成 分 分 析 法 的 主体 部 分 。 其 中 ,第 8,9 行 平 
移 各 向 量 , 使 得 它们 的 均值 为 0。 第 10 £T TEXT X 的 特征 根 和 特征 向 量 。 第 12、13 行 对 特 
征 根 进行 排序 ,同时 相应 地 调整 特征 向 量 的 次 序 。 第 14 行 计算 和 矩阵 W。 第 15 行 计算 z— 
XW。 在 第 17、18 行 中 实现 数据 重 构 功 能 。 


machine leaming.lib.pca 

1 import numpy as np 

2 

3 class ECA: 

4 def | init (self, n components): 

5 Self.d-n oumponents 

6 

5 def fit transfomm(self, X): 

8 self.mean- X.mean (axis = 0) 

9 X- X- self.mean 

10 eigen values, eigen vectors- np.linalg.eig(X.T.dot (X) ) 

11 r= len (eigen values) 

12 pairs-[ (eigen valued i], eigen vectors :, il) for i in range) ] 
13 pairs= sorted (pairs, key- lambda pair: pair| 0], reverse- True) 
14 self.W-np.array(( pairs r][1] for r in range (se1f.d) ]) .T 

15 return X.dot (self.W) 

16 

17 def inverse transfom(self, Z): 
18 return Z.dot (self .W.T) + self.mean 


图 10.3 主 成 分 分 析 法 的 实现 


例 10.1 手写 数字 图 片 的 数据 降 维 。 

在 例 5. 10 中 ,对 手写 数字 识别 问题 的 数据 集 MNIST 做 过 描述 。MNIST 数据 集中 有 
70 000 3K 0—9 的 数字 图 片 。 每 一 张 图 片 对 应 的 是 该 图 片 的 28 X28 的 像素 灰 度 矩阵 。 因 
此 ,MNIST 中 的 每 一 条 数据 样本 都 是 一 个 28X28 二 784 维 的 向 量 。 本 例 中 采用 PCA 法 将 
它们 降 维 。 采 用 图 10. 3 中 的 主 成 分 分 析 法 ,将 手写 数字 图 片 数据 从 784 维 的 向 量 降 维 成 为 
100 维 的 向 量 。 具 体 的 算法 描述 见 图 10.4. 


1 import matplotlib.pyplot as plt 
2  framtensorflow.examples.tutorials.mnist import input data 


3  franmachine learning.lib.pca import PCA 


图 10.4. 手写 数字 图 片 降 维 的 主 成 分 分 析 法 
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mist= input data.read data sets ("NIST data/", one hot- False) 
X, Y-mnist.train.images, mnist.train.labels 

model- KA (n oumponents- 100) 

Z-model.fit transform(X) 

X reoovered-model.inverse transform(2) .astype (int) 


plt.figure(0) 

plt.imshow(X 0] .reshape (28,28) ) 
plt.figure(1) 

plt.imshow(X recovered 0].reshape (28,28) ) 
plt.figure(2) 

plt.scatter (4 :,0], Z :,1], c- Y) 
plt.show() 


图 10.4 ( 续 ) 


在 图 10. 4 的 算法 中 ,第 7 行 声明 一 个 PCA 类 ,其 目标 是 将 数据 降 成 100 维 。 第 8 行 获 


得 降 维 之 后 的 向 量 。 第 9 — 重 构 算 法 将 数据 还 原 成 784 维 向 量 。 第 11 一 14 行 打印 


Et 


字 。 这 说 明 , 经 过 降 维 之 后 再 还 原 


这 图 片 以 ii odis: 原 的 图 片 , 见 图 10.5。 从 图 10.5 中 容易 分 辨 出 图 片上 的 数 
的 图 片 保留 了 图 片 中 的 重要 信息 。 但 与 原 图 对 比 ,还 原 后 


的 图 片 不 可 避免 地 损失 了 部 分 信息 。 


原 图 片 降 维 后 还 原 的 图 片 


图 10.5 原 图 片 与 经 数据 重 构 的 图 片 的 对 比 


居 可 视 化 是 降 维 算 法 的 另 一 个 重要 应 用 。 人 类 的 视觉 只 能 观察 不 超过 三 维 的 数据 。 


将 高 维 数据 降 至 三 维 空间 或 者 二 维 空间 中 的 点 ,可 以 辅助 算法 设计 者 对 数据 的 观察 。 在 


图 10.4 


的 第 16 行 中 ,生成 手写 数字 数据 集中 的 784 维 向 量 的 第 一 和 第 二 主 成 分 构成 的 点 


集 , 见 图 10.6。 图 10. 6 中 的 每 个 点 表示 一 张 手写 数字 图 片 , 而 点 的 颜色 表示 图 片上 的 数字 。 
从 图 10. 6 中 可 以 看 到 ,有 相同 数字 的 图 片 经 降 维 之 后 依然 聚集 在 一 起 。 这 说 明 , 前 两 个 主 
成 分 已 经 包含 了 图 片 的 主要 信息 。 
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图 10.6 MNIST 中 数据 的 二 维 展示 


应 用 主 成 分 分 析 法 将 n 维 数据 降 为 a 维 时 ,d 值 的 大 小 对 降 维 的 效果 有 重要 影响 。 在 
实际 问题 中 ,d 值 一 般 要 依据 X"X 的 特征 根 信息 来 确定 。 设 XTX 的 个 特征 根 为 Ai 三 Xs 三 
eum 定义 


为 前 个 特征 根 的 累计 方差 贡献 率 (k 二 1,2,…,n)。 它 表示 个 主 成 分 所 能 包含 的 x 中 ， 
x? eux 的 信息 量 的 比例 。 确 定 d 值 时 ,可 以 采用 以 下 方法 : 以 累计 方差 贡献 率 达 到 
85% 的 最 少 特征 根 数 作 为 d 的 值 。 


10.1.3 奇异 值 分 解 


奇异 值 分 解 (Singular Value Decomposition,SVD) 是 线性 代数 中 的 一 种 重要 的 矩阵 分 
解 算法 。 和 矩阵 奇异 值 分 解 与 主 成 分 分 析 法 有 着 紧密 的 联系 。 由 奇异 值 分 解 算法 可 以 得 到 主 
成 分 分 析 法 的 另 一 种 实现 方法 。 
定义 10.1( 奇 异 值 和 奇异 向 量 ) E OX JÉ— T m X n ÓB E cu 是 一 个 m 维 单位 列 向 量 ,v 
是 一 个 维 单位 列 向 量 。 如 果 存 在 实数 ,使 得 
Xv = ou (10. 17) 
X'u = ov (10. 18) 
则 称 o HX 的 一 个 奇异 值 。 向 量 w 和 w 分 别称 为 左 奇异 向 量 和 右 奇异 向 量 。 
定理 10.1( 奇 异 值 与 特征 根 的 关系 ) UE X JÉ— b mXn 矩阵。 如果 co 为 X 的 一 个 奇异 
值 , 且 w 和 w 分 别 为 左 奇异 向 量 和 右 奇 异 向 量 , 则 0 必 为 XIX 的 特征 根 , 且 w 是 其 相应 的 特 
征 向 量 ;同时 ,o? 也 必 为 XX 的 特征 根 , 且 u 是 其 相应 的 特征 向 量 。 
证 明 : 根据 式 (10.17) 和 式 (10. 18) ,有 
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X'Xv — X (Xv)— X'(cu) — oX'u — o^v 
XX"u = X(X*u)— X(ov)— eXv = ou 
这 就 证 明了 定理 10. 1 的 结论 。 

由 定理 10. 1 可 知 ,如 果 能 求 出 矩阵 X. 的 奇异 值 和 对 应 的 右 奇 异 向 量 , 就 可 以 间接 地 计 
JE XT X 的 特征 根 与 特征 向 量 。 定 理 10. 2 中 的 矩阵 奇异 值 分 解 就 是 一 个 计算 奇异 值 和 奇 
异 向 量 的 方法 。 

定理 10. 2C 4B E p SEE AY RO — 设 关 是 一 个 m Xn EH rank(X) —r.Bll —5E f£ TE mX 
r IERE U rXr 对 角 和 矩阵 D 以 及 nn Xr EE V efl 

X = UDV" (10. 19) 
其 中 ,对 角 阵 D 的 7 个 对 角 线 元 素 o1 .0s,…,o, 为 X 的 全 部 正 奇异 值 ,并 且 的 各 列 相互 正 
交 ,V 的 各 列 也 相互 正 交 , 即 


U"U = i (10. 20) 
y*y — I, (10. 21) 
RP, In A E, 459] 23 m m 和 nXn ÉE RE 
i X—UDV? Jy X 的 奇异 值 分 解 。 在 式 (10. 19) 等 号 两 端的 右 侧 同 时 乘 以 了 ,再 结合 式 
(10. 21) 可 知 


XV =UDV'V = UD (10. 22) 
dE SX C10. 19) 等 号 两 端的 左 侧 同时 乘 以 07 ,再 结合 式 (10. 200 n] Ail 
UTX = UTUDYVT = DV? (10. 23) 
对 式 (10. 23) 等 号 两 端 同 时 进行 转 置 操作 可 得 
X'U = VD" = VD (10. 24) 


结合 式 (10. 22) 和 式 (10. 24) 可 以 得 到 以 下 的 推论 。 

推论 10.3 ERAO. 190 I] AEST (EAE EP LU — (Qu? su? esu" ) 的 第 i 列 为 0; 的 左 奇 
Si] fit V — (v ,ou2 eco? ) 的 第 i 列 为 0; 的 右 奇异 向 量 。 

综合 定理 10.1、 定 理 10.2 和 推论 10.3, 可 以 得 到 如 下 结论 : 如 果 XX 的 秩 rank(X) = 
WW) x 4675 r 个 正 的 奇异 值 cl ,oo ,…:o ,并且 XXT 5 X" X 有 相同 的 非 0 特征 根 of soze 
uP Jéo XT XXT 的 单位 特征 向 量 ,v 是 关于 XTX 的 单位 特征 向 量 (二 1,2，…,7) 
基于 上 述 结论 ,如 果 有 奇异 值 分 解 X=UDVT, 则 主 成 分 分 析 法 只 需 取 出 V 的 前 4 列 即 
可 。 图 10.7 是 采用 矩阵 奇异 值 分 解 的 主 成 分 分 析 法 的 实现 。 


图 10.7 ”矩阵 奇异 值 分 解 的 PCA 法 
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Self.d-n oumponents 


5 

6 

7 def fit transform(self, X): 

8 self.mearr X.mean (axis- 0) 
9 


X-X- self.mean 


10 U, D, VE= np.linalg.svd(X) 
1 self .We Vil 0: self.d].T 
12 return X.dbot (self.W) 


14 def inverse transfomm(self, Z): 
15 retum Z.dot (self.W.T)+ self.mean 


图 10.7 (5o 

在 图 10.7 中 ,第 10 行 计算 矩阵 X B9) 5/84 E 3 ILU D 和 V7。 第 11 行将 VT 的 前 

d 行 的 转 蜀 取 为 W。 这 等 价 于 取 V 的 前 4 列 。 算 法 其 余 的 部 分 均 与 图 10.3 中 的 算法 实现 
相同 。 


10.2 主 成 分 分 析 的 核 方 法 


主 成 分 分 析 法 是 用 线性 投影 的 方式 实现 数据 降 维 。 它 适用 于 高 维 空间 中 的 数据 近似 地 
分 布 于 某 个 低 维 线性 子 空间 的 情形 。 从 统计 学 上 看 , 当 数 据 样本 的 个 特征 之 间 存 在 线性 
相关 关系 时 ,用 主 成 分 分 析 法 将 n 维 数据 降 至 a 维 效 果 较 好 ;如 果 数 据 样本 的 个 特征 之 间 
不 存在 线性 相关 关系 , 则 主 成 分 分 析 法 降 维 的 效果 往往 就 不 理想 了 。 本 节 中 的 核 方 法 是 对 
主 成 分 分 析 法 的 一 个 加 强 。 在 数据 的 个 特征 之 间 无 线性 相关 关系 的 情况 下 , 主 成 分 分 析 
的 核 方法 对 数据 降 维 的 效果 往往 优 于 主 成 分 分 析 法 。 


10.2.1 主 成 分 分 析 法 的 等 价 形式 


为 了 将 核 函 数 与 主 成 分 分 析 法 有 机 结合 .需要 采用 和 矩阵 奇异 值 分 解 对 PCA 的 基本 形式 
作 等 价 变换 。 
设 X=UDV" 是 输入 矩阵 X 的 奇异 值 分 解 。 由 UTUS In . n] Al 
V — X'UD^ (10. 25) 
H Ai dzee ,A, 是 XXT 的 全 部 非 0 特征 根 。 根 据 定理 10. 1 和 推论 10.3.U 的 每 一 列 都 是 
XX" 的 特征 向 量 。 所 以 有 


à 


XX'U =U à (10. 26) 
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结合 式 (10. 25) 5X C10. 26) 可 知 


ài VÀ 
XV = XX'UD^? = U * " D^c-U Veo (10. 27) 
A Mas 
式 (10.27) 中 用 到 了 如 下 结论 : D 的 对 角 线 元 素 是 XX7 的 特征 根 的 平方 根 , 即 
VA 
Vhs 


u 


主 成 分 分 析 法 的 输出 是 矩阵 XV 的 前 d Fe B US (u u? um). Hr um, 
D eeu? H XXI 的 对 应 于 为 ,Xs，,… ,Xa 的 特征 向 量 。 根据 式 (10.27) ,XV 的 前 4 列 恰 为 


di aqu VH AfAgu 


因此 主 成 分 分 析 法 的 一 个 等 价 描述 如 图 10. 8 所 示 。 


PCA 法 的 等 价 描述 
mm 


m, 
for t=1,2, m: 
xO xO — y 


T 
x 


T 
xo 


compute eigenvalues of XXT ; A 4; >+ Àm 
a 


let u” ,u? ,yue be the corresponding eigenvectors 


return Z= ( A u'? , Sau? yee, Jigu? ) 


图 10.8 主 成 分 分 析 法 的 等 价 描述 


10.2.2 核 方法 算法 描述 


在 第 6 章 中 介绍 了 核 方 法 在 支持 向 量 机 中 的 应 用 。 主 成 分 分 析 法 是 核 方法 的 另 一 个 重 
要 的 应 用 场合 。 设 待 降 维 的 数据 为 m 个 向 量 x ex? ,xm ER"。 核 方法 通过 定义 一 个 
映射 $:R" 一 R"* 将 一 个 n 维 向 量 映射 为 一 个 N 维 向 量 , 使 得 8 (x ) a (0? ),…,$(x”) 近 
似 地 分 布 在 RN 的 某 个 低 维 线性 子 空 间 中 ,从 而 可 以 对 $8 (x? ) 8 (x? ),…,$(x”) 进 行 主 
成 分 分 析 降 维 。 在 上 述 过 程 中 , 核 方 法 的 关键 点 是 它 无 须 涉 及 映射 $ 的 具体 形式 ,而 只 需要 
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如 式 (6. 46) 所 定义 的 核 函数 的 信息 。 因 此 ,只 要 核 函 数 具 有 便于 计算 的 形式 ,尽管 映射 $4 可 
能 十 分 复杂 ,也 不 会 增加 计算 的 复杂 度 。 

设 降 维 的 目标 是 将 n 维 数据 降 至 4 维 。 取 定 一 个 映射 %:R" 一 RN 及 其 核 函数 K,. TERN T 
用 主 成 分 分 析 法 对 (x Jp (xP ) a x0? ) 降 维 时 , 先 不 妨 假设 


>)=0 (10. 28) 
按照 惯例 ,定义 
$(oO ug 
(2) 4T 
=| 
Wt je 
以 及 
K = $(X)$ (X)* (10, 29) 
—— € 中 的 元 素 。 天 中 第 上 行 第 * 列 的 元 素 为 
es qx? y ex? ys uxo vay. sis 2, (10. 30) 
由 此 ， sis 10. 8 的 算法 ,基于 核 的 主 成 分 分 析 法 先 按 式 (10. UERS 后 计 


算 K 的 按 值 从 大 到 小 排列 的 前 4d 个 特征 根 和 ,hs,…,s 及 其 对 应 的 特征 向 量 w ca? ,… 
u'? ,最 后 输出 Z= (Au? , Asu? vens Au? ) 作 为 降 维 的 结果 
WMR $ (x? ) a (x? ) a (x ) 不 满足 式 (10. 28) ,就 需要 对 其 按 式 (10. 31) 平 移 。 


G9) = 4a )- L5 1g). io derum (10,31) 
t=1 


显然 ,平移 变换 后 的 d (x ) a (x ) md 0 ) 满 足 式 (10. 28) 。 由 于 平移 调整 了 映射 $， 


所 以 要 对 和 矩阵 K 做 出 相应 的 调整 。 此 时 ,定义 mXm 和 矩阵 = (K,.,) 1<is<n。 和 矩阵 KK 中 第 
t ITE s 列 的 元 素 为 


Rs $49) 


= 人 (se i» x? jj (sc 3 一 二 Dy? )] 
K 


+ 
J- 
M: 
D lv y 
A 


因此 有 


K = K— JK —KJ + JKJ (10. 32) 
其 中 ,J 是 所 有 元 素 均 为 1 的 mXm EE. 
图 10.9 对 上 述 主 成 分 分 析 的 核 方法 给 出 了 算法 描述 。 
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主 成 分 分 析 的 核 方 法 
for is 一 1,2,… sm: 
Kas =K; (x'? ,x ) 


K=K—JK—KJ+JKJ 


compute eigenvalues of K: A DA 2 Àm 


let u? ,u? pee 


1 一 


»u'" be the corresponding eigenvectors 


图 10.9 主 成 分 分 析 的 核 方法 描述 


10.2.3 核 方法 算法 实现 


图 10. 10 是 对 图 10. 9 中 算法 的 实现 。 图 10. 10 中 的 第 3,4 行 定 义 恒 等 映射 的 核 函 数 
作为 默认 的 核 函 数 。 第 6 行 定 义 KernelPCA 类 。 在 第 7 一 9 行 的 构造 函数 中 ,指定 降 维 的 
目标 维度 d — n. components ,并 指定 核 函 数 ; 如 果 没有 指定 核 函 数 , 则 采用 默认 核 函 数 , 即 恒 
等 映射 的 核 函 数 。 采 用 人 恒 等 映 射 核 函数 的 KernelPCA 算法 就 是 主 成 分 分 析 法 。 

第 11 一 23 行 的 fit transform 函数 是 核 方法 降 维 的 主要 部 分 。 在 第 12 一 16 行 中 ,用 式 
(10, 30) 和 核 函数 来 计算 矩阵 K; 17、18 行 用 式 (10. 32) 来 计算 和 矩阵 玉 。 第 19 一 21 行 计算 
玉 的 前 d 个 特征 根 和 ;三 ia? 三 … 三 jy 及 其 对 应 的 特征 向 量 w Lu? Le cu? 48 22,23 行 输出 
ZB a/ Ys 


machine learning.lib.kernel pca 

1 import numpy as np 

3 def defaut kemel(x, x2): 

4 retum xl.dot(x2.T) 

5 

6 class KernelECA: 

7 def ^ init — (self, n components, kemel- default kernel): 
8 Self.d-n oumponents 

5 self.kernel- kernel 

10 

ll œf fit transform(self, X): 

12 m,n-X.shape 

13 K= np.zeros ( (m,m) ) 

14 for s in range (m) : 

15 for rin range (m): 

16 K s][x]- seif-kemel Kt s], X x]) 


图 10.10 主 成 分 分 析 的 核 方 法 
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17 J-np.cnes ( (mm)) * (1.0/m) 
18 K=K- J.dot (K) - K.dot (J)+ J.dot (K) .dot (J) 
19 eign values, eigen vectors =np.linalg.eig (K) 
20 pairs-[ (eigen valued i], eigen vectors :,i]) for i in range (m) ] 
21 pairs= sorted (pairs, key- lambda pair: pair| 0], reverse- True) 
22 Z-np.array ( pair i] 1]* np.sart (pairs i][ 0]) for i in 
range (self.d) ]) .T 
23 retum Z 


Æ 10.10 (4D 


例 10.2 月 亮 数据 集 的 降 维 。 

Sklearn 数据 库 中 的 月 亮 数据 集 常用 于 测试 处 理 非 线 性 数据 的 各 类 机 器 学 习 算法 。 月 
亮 数 据 集中 的 每 一 条 数据 都 是 平面 上 的 一 个 点 。 数 据点 带 有 蓝 色 或 者 黄色 ,两 种 颜色 的 数 
据 呈 交错 的 月 芽 状 分 布 。 图 10. 11 是 数据 集中 的 500 条 数据 采样 。 


00 05 L0 
图 10.11 月 亮 数据 集 采样 


月 亮 数 据 集中 的 每 一 条 数据 都 是 一 个 二 维 向 量 。 如 果 将 数据 降 至 一 维 ,理想 的 降 维 算 
法 应 当 将 蓝 色 点 和 黄色 点 区 分 开 。 图 10. 12 中 的 程序 分 别 用 主 成 分 分 析 法 和 带 核 函 数 的 主 
成 分 分 析 法 对 图 10. 11 的 数据 采样 并 降 维 。 第 7 一 9 行 实现 了 高 斯 核 函数 。 第 11 一 14 行 4 
成 数据 采样 。 第 16 一 19 行 分 别 调用 图 10. 3 和 10. 10 中 的 算法 进行 降 维 。 第 21 一 25 行 展 
示 降 维 的 效果 。 


FE BT 


import numpy as np 

fram sklearn.datasets import make moons 

import matplotlib.pyplot as plt 

frm machine learning.lib.kernel pca import KernelFCA 


S 0d 


图 10.12 月 亮 数据 降 维 的 主 成 分 分 析 法 和 带 核 函 数 的 主 成 分 分 析 法 
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franmachine learning.lib.pca import FCA 


5 

6 

7 def bf kemel(d, 32): 

8 sigm- 1.0 / 15 

9 retum np.exp (- np.linalg.nomm(xl - x2, 2) * *2/sigma) 
11 np.randam.seed(0) 

12 X, y-make moons(n samples- 500, noise- 0.01) 

13 pit.figure(0) 

14 plt.scatter(X :, 0], X :, 1], =y, awp 'rainbow') 


16 pca-EFCA(n camponents- 1) 

17 X pca-pca.fit transformm(X) .reshape (- 1) 

18 Kkpca-KernelFECA(n camponents- 1, kernel- rbf kernel) 
19 X kpca- kpca.fit transform(X) .reshape (- 1) 


1 plt.figure(1) 

22 plt.scatter(X pca, np.ones (X pca.shape), c- y, arap- 'rainbow') 
23 pit.figure(2) 

24 plt.scatter(X kpca, np.ones(X kpca.shape), c- y, amap- 'rainbow') 
25 plt.show() 


图 10.12 (5 


运行 图 10. 12 中 的 程序 ,可 以 得 到 图 10. 13 所 示 的 结果 。 图 10. 13 Ca) 和 (b) 分 别 是 主 成 
分 分 析 法 和 带 核 函数 的 主 成 分 分 析 法 的 降 维 结果 。 从 图 10. 13(a) 中 可 以 看 到 , 主 成 分 分 析 
法 将 原来 在 平面 上 按 颜色 明确 分 开 的 两 类 点 降 至 一 维 之 后 ,它们 之 间 就 没有 明确 的 分 界线 
了 。 而 在 图 10. 13(b) 中 ,用 主 成 分 分 析 的 核 方法 降 维 后 ,两 种 颜色 的 点 仍然 保留 着 明确 的 
分 界线 。 由 此 可 见 ,在 月 亮 数据 集 上 , 主 成 分 分 析 的 核 方 法 在 降 维 的 过 程 中 更 好 地 保留 了 数 


1.003 1.003 

1.002 1.002 

1.001 1.001 

1.0004 一 -一 一 一 一 一 一 -一 一 1.000] 一 一 一 一 一 “一 -一 一 -一 

0.999 0.999 

0.998 0.998 

0.997 0.997 
-1.5 -1.0 -05 00 05 10 15 -04 -03 -0.2 -0.1 0.0 0.1 02 03 

(a) (b) 


图 10.13. 主 成 分 分 析 法 与 主 成 分 分 析 的 核 方法 降 维 结果 的 对 比 
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据 所 携带 的 信息 。 

根据 具体 问题 的 数据 形式 ,选用 合适 的 核 函数 是 使 用 主 成 分 分 析 的 核 方法 的 关键 。 在 
实际 应 用 中 ,可 以 通过 算法 设计 者 的 经 验 来 选取 核 函 数 , 也 可 以 通过 对 比 多 种 不 同 的 核 函数 
的 效果 选 出 最 合适 的 一 种 核 函 数 。 


10.3 线性 判别 分 析 法 


主 成 分 分 析 法 及 其 核 方法 都 属于 无 监督 学 习 算法 , 即 算法 对 样本 的 数据 特征 进行 降 维 
时 不 需要 样本 的 标签 信息 。 然 而 在 许多 实际 问题 中 ,需要 降 维 的 数据 样本 是 带 有 标签 信息 
的 。 在 这 样 的 情况 下 ,如果 能 够 结合 标签 信息 对 数据 样本 特征 进行 降 维 , 效 果 可 能 会 优 于 主 
成 分 分 析 法 等 完全 不 用 标签 的 降 维 算法 。 线 性 判别 分 析 法 就 是 一 种 结合 类 别 标签 的 信息 对 
数据 样本 特征 进行 降 维 的 算法 。 由 于 它 所 涉及 的 数据 样本 带 有 类 别 标签 ,因而 线性 判别 分 
析 法 属于 监督 式 学 习 算法 。 


10.3.1 算法 思想 


线性 判别 分 析 法 又 称 为 LDA 算法 , 它 是 其 英文 名 Linear Discriminant Analysis 的 首 字 
母 缩写 。 它 的 雏形 是 由 英国 的 统计 学 家 罗 纳 德 。 费 舍 尔 于 1936 年 首先 提出 的 。 线 性 判别 
分 析 法 适用 于 对 分 类 问题 的 样本 特征 数据 进行 降 维 。 它 的 基本 思想 是 : 计算 一 个 低 维 投 
影 , 使 得 投影 的 类 间 区 别 尽 可 能 大 ,而 类 内 区 别 尽 可 能 小 。 这 样 的 低 维 投影 能 最 好 地 区 分 各 
个 不 同 的 类 。 以 下 具体 介绍 这 一 思想 在 算法 设计 中 的 应 用 。 

设 一 个 元 分 类 问题 有 m 条 训练 数据 (x 1 )， (x yP ) (y) MEE 
IXsm.x'? € R'UUR y'? € (1,2, 4) ,目标 任务 是 将 x ,x'”,… ,x 分别 降 维 成 a 维 。 

以 GRR m 个 数据 样本 中 标签 是 第 i 类 的 样本 的 集合 , 即 

= lua 
设 C; 中 的 元 素 个 数 为 mj; 二 |C;| , 则 C; 中 样本 特征 的 平均 值 向 量 py;ER" 定 义 为 


= 1 
Hiec 


定义 py ER" 为 全 体 数据 样本 x'”,x'”,… ,x 的 平均 值 向 量 , 即 


定义 10. 2( 类 间 散 度 和 矩阵 ) H nX n EE 


k 


S, = Ym (gi— B )Qu— ag) (10. 33) 


i=1 


PRH x ax? xz 的 类 间 散 度 矩 阵 。 
定义 10.3( 类 内 散 度 矩阵 ) Hi nXn 和 矩阵 
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ito 


224 x—pu)(x— pu) (10. 34) 
xE Ci 


sob x E RE. 

XI—^ 2565€ HJ n EIS] SE ws Ovx?» — wx? Jg x? 沿 方向 w BERE (1 rmn. 。 因 此 ， 
w p 等 于 全 体 样本 的 投影 平均 值 , 且 wp; T. Ci PREIS RE PEAS). C; 中 样 
本 的 投影 平均 值 与 全 体 样本 的 投影 平均 值 之 间 的 差异 为 (w' p; 一 w jp )*。 以 C; 中 的 样本 
数 mw; 为 权重 , 则 Ci ,Cs，… ,Ci 中 的 样本 投影 平均 值 与 全 体 样 本 投影 平均 值 差异 的 加 权 和 为 


k 
mp w'y)? = w'Syw (10. 35) 


将 式 (10. 35) 称 为 样本 沿 方向 w 的 投影 的 类 间 散 度 。 类 间 散 度 衡量 类 别 不 同 的 样本 经 投影 
后 的 区 别 。 因 此 ,w 的 选择 应 当 使 类 间 散 度 的 取 值 尽 可 能 大 。 
根据 方差 的 定义 ,Ci 中 样本 的 投影 方差 为 
1 2 
LE va 


以 Ci 中 的 样本 数 mm; 为 权重 , 则 C. C; M “Ce 中 的 每 一 个 类 的 投影 方差 加 权 和 为 


k 
Ym. 1 » (w'x — w" ui)? = w'S,w (10. 36) 
i-i miyec 


式 (10. 36) 称 为 样本 沿 方向 w 的 投影 的 类 内 散 度 。 类 内 散 度 衡量 同一 类 中 的 样本 经 投影 后 
的 区 别 。 因 此 ,w 的 选择 应 当 使 类 内 散 度 的 取 值 尽 可 能 小 。 

线性 判别 分 析 法 是 一 个 同时 兼顾 投影 的 类 间 散 度 wrSsw 最 大 化 和 类 内 散 度 wTSww 最 
小 化 的 降 维 算 法 。 线 性 判别 分 析 法 的 目标 函数 为 
wiSow 
w'S,w 
ARAO. 37) 可 以 看 出 : 类 间 散 度 wT Suw 越 大 ,J(w) 越 大 ;类 内 散 度 wz Sow 越 小 ,J(w) 越 大 。 
因此 ,通过 最 大 化 J(w) 得 到 的 w, 可 以 使 样本 沿 w 方 向 的 投影 最 好 地 区 分 k 个 类 。 

线性 判别 分 析 算法 确定 d 个 投影 方向 的 基本 思想 是 : 首先 选 出 一 个 使 J(w) 达 到 最 大 
值 的 向 量 w2 。 然 后 ,依次 计算 向 量 wow ew, wW (25 rd) BR fe NoD A vi ie 5 
ww? ww 都 正 交 ,并 且 是 在 所 有 与 wm ,w2 Lew? 都 正 交 的 投影 方向 中 使 
J (w) 值 达到 TUM 

Td ER $1: A dE As ELE. w 应当 为 以 下 优化 问题 的 最 优 解 : 


J(w)= (10. 37) 


max J (w)= Let (10. 38) 
5|38 10.4 i w” 是 以 下 优化 问题 的 一 个 最 优 解 : 

max F(w) = w'S,w 

weR" 

约束 : wrSow 一 1 (10. 39) 


Ji] w — EERO. 38) 的 一 个 最 优 解 。 
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WEBB. i w ERAO. 38) 的 一 个 最 优 解 。 取 
w 
JT Sab 
MAW Sow 二 1, 即 w 是 式 (10. 39) 的 一 个 可 行 解 。 因 此 ,必然 有 下 (Ww) 三 F(w" )。 但 是 容易 看 
出 FOR) —J (W) —J w) B. Fw ) 二 J(w”), 所 以 有 J(W) 三 J(w" ). BUT w ÆRA. 38) 的 最 
优 解 ,所 以 必然 有 JO) =J (w), HIE w 一 定 也 是 式 (10. 38) 的 一 个 最 优 解 。 
根据 引 理 10. 4 的 结论 ,优化 式 (10. 38) 的 问题 就 转化 为 优化 式 (10. 39) 的 问题 。 用 4 表 
示 约 束 条 件 wISuw 王 1 对 应 的 拉 格 朗 日 乘 子 , 则 式 (10. 39) 的 拉 格 朗 日 函数 为 L(w,2) 二 
wiSow 一 Aw"S。w。 因 此 ,最 优 的 w 与 4 必须 满足 KKT IT: 
VL (w.A) — 2S,w — 2ìS „w = 0 (10. 40) 
w'S,w = 1 (10. 41) 
由 式 (10.40) 知 Sow —AS ,w . BI 


y= 


S,'S,w = Àw (10. 42) 
式 (10. 42) 说 明 ,， JEME [e SL S, AYIRIR, EL w 为 相应 的 特征 向 量 。 此 外 , 当 式 (10. 400 和 
式 (10. 41) 满 足 时 ,有 
F(w) = w'(S,w) = w" (AS w)— Aw'S,w = à 

因此 , 式 (10. 39) 的 最 优 值 是 S S, 的 最 大 特征 根 。 所 以 ,线性 判别 分 析 法 将 SS, 的 最 大 特 
征 根 对 应 的 特征 向 量 取 为 w 。 

与 主 成 分 分 析 法 类 似 , 接 下 来 ,线性 判别 分 析 法 以 SL SI S r 大 的 特征 根 对 应 的 特征 
向 量 作 为 w ,r 王 2,3,，…,d。 


10.3.2 算法 实现 
图 10. 14 是 线性 判别 分 析 法 的 算法 描述 。 


线性 判别 分 析 法 

compute eigenvalues of S;'S,: A ==, 
let w sw? ,- 
W-(w? ,wO ew?) 


return Z— XW 


* Ww" be the corresponding eigenvectors 


图 10.14 线性 判别 分 析 法 的 算法 描述 


图 10. 15 是 对 图 10. 14 中 的 算法 的 实现 。 在 图 10. 15 中 ,第 8 一 17 行 生 成 两 个 哈 希 表 
sums 和 counts。 这 两 个 哈 希 表 的 键 值 是 类 别 号 , 表 值 分 别 是 类 中 的 样本 总 和 和 样本 数目 。 
第 18 行 中 的 X. mean 表示 全 部 样本 的 平均 值 向 量 yp。 第 19 一 27 行 按照 式 (10. 33) 和 
式 (10. 34) 来 计算 类 间 散 度 矩 阵 S, 和 类 内 散 度 和 矩阵 S。。 第 28 一 32 行 计 算 Sv1Ss 的 从 大 到 小 
排列 的 前 4 个 特征 根 对 应 的 特征 向 量 w wP ew? ,并 生成 W= (ww? ve WI), 
最 后 ,在 第 33 行 输出 XW. 
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machine leaming.lib.lda 

1 import numpy as np 

2 

3 class IIA: 

4 def X init (self, n camonents): 

5 Self.d-n camponents 

6 

7 def fit transform(self, X, y): 

8 sums- dict () 

9 counts- dict () 

10 m,n-X.shape 

it for t in range m): 

了 2 iet] 

13 if i not in sums: 

14 suns i]- np.zeros ((1,n)) 

15 count i]-0 

16 suns i]r-X t] .reshape (1,) 

17 coutd i]r-1 

18 X mar np.mean (X, axis- 0) .resbape (1,n) 

19 S b-np.zeros ( (n,n)) 

20 for i in counts: 

2 v-X man- 1.0* smg i]/oounts i] 

22 S br- oomts| i] * v.T.dot (v) 

23 S w-np.zeros ( (n,n)) 

24 for t in range (m) : 

25 i= t] 

26 u-X t] .reshape (1,n)- 1.0* sums i]/counts| i] 
21 S wt —u.T.dot (u) 

28 A-rp.linalg.pinv(S w).dot(S b) 

29 values, vectors- np.linalg.eig (A) 

30 pairs-[ (valued j], vectord :, j]) for j in range (en (values)) ] 
a pairs- sorted(pairs, key- lambda pair: pair| 0], reverse- True) 
32 W-np.array( pairs jl 1] for j in range(self.9)]).T 
33 return X.dot (W) 


图 10.15 线性 判别 分 析 法 的 算法 实现 


对 手写 数字 数据 集 MNIST 中 的 784 维 数 据 采 用 线性 判别 分 析 法 降 维 ,结果 如 图 10. 16 
所 示 ,其 中 的 每 个 点 表示 一 张 手写 数字 图 片 , 用 点 的 颜色 表示 图 片上 的 数字 。 与 图 10. 6 中 
的 主 成 分 分 析 法 降 维 的 结果 对 比 , 图 10. 16 对 不 同 数字 的 区 分 度 更 高 一 些 。 这 说 明 , 在 手写 
数字 数据 集 这 个 例子 中 ,同样 是 将 784 维 的 手写 数字 图 片 数据 降 至 二 维 时 ,结合 标签 信息 的 
降 维 算法 比 主 成 分 分 析 法 有 更 好 的 降 维 效 果 。 
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图 10.16 手写 数字 数据 的 线性 判别 分 析 法 降 维 效果 


10.4 流 形 降 维 算 法 


前 几 节 中 介绍 的 降 维 算法 都 有 一 个 共同 的 假设 , 即 待 降 维 的 高 维 空间 中 的 数据 分 布 于 
某 个 低 维 线性 子 空间 。 即 便 是 主 成 分 分 析 的 核 方法 ,也 假设 经 过 映射 后 的 数据 满足 这 一 条 
件 。 本 节 介 绍 另 一 类 降 维 算法 ,这 类 算法 不 要 求 满足 上 述 线性 子 空间 条 件 。 这 类 算法 被 称 
为 流 形 降 维 算法 ,它们 特别 适合 如 图 10. 17 所 示 的 数据 的 降 维 问题 。 


图 10.17 流 形 数据 示意 


图 10. 17 中 的 三 维 数据 是 由 一 个 二 维 平面 * 卷 ”成 的 。 这 样 的 结构 在 拓扑 学 和 物理 学 上 
被 称 为 一 个 二 维 流 形 。 在 n 维 空间 中 ,将 一 个 由 d 维 子 空间 通过 拓扑 同 胚 变换 得 到 的 结构 
称 为 一 个 d 维 流 形 。 这 里 所 说 的 拓扑 同 胚 变换 ,简单 来 说 ,就 是 对 物体 进行 连续 的 延展 和 弯 
曲 变 形 。 

本 节 着 重 介绍 两 个 流 形 降 维 算法 : 局 部 线性 嵌入 法 和 多 维 缩放 法 。 这 两 个 流 形 算法 的 
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共同 点 是 它们 都 致力 于 保持 数据 样本 之 间 的 某 种 关系 经 降 维 后 不 发 生 改 变 。 
10.4.1 局 部 线性 嵌入 法 


ARRERA (Locally Linear Embedding,LLE) 的 思想 是 保持 样本 点 之 间 的 局 部 线 
性 关系 经 降 维 后 不 被 改变 。 

给 定 一 组 nn HE] St x O ax? vex E R" ,假定 需 要 将 它们 降 至 4d 维 。 局 部 线性 嵌入 法 
的 降 维 过 程 分 为 两 步 。 在 第 一 步 中 ,算法 对 每 一 个 样本 与 其 他 样本 之 间 的 局 部 线性 关系 进 
行 编码 。 在 第 二 步 中 ,算法 计算 一 组 d 维 向 量 zz? ,…,z ER ,使 得 这 组 向 量 最 好 地 
保持 第 一 步 中 计算 出 的 局 部 线性 关系 编码 。 

局 部 线性 宜 入 法 需要 一 个 由 算法 设计 者 指定 的 参数 &。 在 第 一 步 中 ,算法 选取 与 样本 
x? (i 二 1,2,…,m) 距 离 最 近 的 个 样本 x ax ,… ,x 作为 其 他 样本 的 代表 ,将 样本 之 间 
的 距离 定义 为 欧 几 里 得 距离 , 即 x 55 x? 的 距离 为 | x? —x 。 然 后 ,算法 计算 一 组 权重 
wi? ,ww € R ,它们 必须 满足 ww 十 w 弛 十 … 十 wh? 三 1, 并 且 它 们 与 个 样本 的 线性 
组 合 wP xE Hw xi HeH xO 尽 可 能 地 接近 x。 可 见 ,需要 求解 如 下 的 优化 问题 : 


G ll 2 


min || wx? + wxi? 十 十 WX 一 x 
we R* 


约束 : ws Hw tHe Hw =l (10. 43) 
可 以 认为 , 式 (10.43) 的 最 优 解 w — (w? sw enn eek? AT x 0 与 其 他 样本 之 间 的 局 
部 线性 关系 进行 了 编码 。 式 中 的 约束 条 件 wP Hw 十 … 十 zw 名 三 1 是 一 个 正规 化 条 件 , 它 
是 为 了 保证 不 同 的 样本 有 同样 数量 级 的 编码 。 

在 第 二 步 中 , 设 对 x? (i 一 1,2,…,m) 都 已 经 得 到 了 与 其 距离 最 近 的 个 样本 的 编号 ， 
isee si AR wP S= (wP w w). AAWA AEE d 维 单位 向 量 z ， 
z? ee 20? € R? ,使 得 w= (wP wp ,… ,wf? REAT REER z 5j i pgi zc 
之 间 的 局 部 线性 关系 进行 编码 , 即 求解 如 下 优化 问题 : 

min 22 || wi? zC? 二 wz epa) —2:9* (10. 44) 


aP CO uuo eg! i2] 


式 (10. 44) 的 最 优 解 zz 0 Lez UP 就 是 算法 对 x ax O ,xz 的 降 维 结果 。 

为 了 实现 局 部 线性 嵌入 法 ,以 下 从 数学 上 推导 出 式 (10. 43) 与 式 (10. 44) 的 最 优 解 。 首 
先 推导 式 (10. 43) 的 最 优 解 。 对 任意 的 1 入;i 生 mm，, 由 约束 条 件 w 十 zw 十 … 十 zw 一 1 可知, 式 
(10.43) 的 目标 函数 可 以 写成 


GU Ciz) Cip) 
| i x? Hx dr Hn — x 


ME 


= | e x6D Hox?" Eu 4n P — (uy +w d t wo, )x IE 
= || w Cx — x )4- qo, (x? — x ) 十 … +w (x? —x ) IE 


ENX X n EE 


xU T — yT 

xT — y T 
p= 

x T — yT 
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则 式 (10. 43) 等 价 于 以 下 优化 问题 : 


min wIUUTw 
ER 


约束 : wl = 1 (10. 45) 
式 中 ,1 是 元 素 全 为 1 的 & 维 列 向 量 。 
取 4 为 约束 条 件 w 1, —1 所 对 应 的 拉 格 朗 日 乘 子 。 根 据 KKT 条 件 , 其 最 优 解 必须 满足 


UU? w — Àl, (10. 46) 
w'1-1 (10. 47) 
Nt v — (QUU?) 7 1, BU AX C10. 46) 可 得 
w= AQUT)?1, = àv (10. 48) 
结合 式 (10. 47) 有 wil 二 4vTl14 二 1。 由 此 可 得 
EE: 
de v1, 
将 其 代入 式 (10. 48) ,得 到 
v 
— (10. 49) 


53K C10. 49) 中 的 w 即 为 式 (10. 45) 的 最 优 解 ,从 而 也 是 式 (10. 43) 的 最 优 解 。 

以 下 推导 式 (10. 44) 的 最 优 解 。 定义 一 个 mXm BE W— (Wij )1i.j&m c 对 任意 的 1< 
iim, 

T (0 sns SWP, cto sw, = wb 
而 对 了 区 seven). wi,j 二 0。 如 果 再 定义 mXm 矩阵 
M—(U-—W»'ü-W) 

其 中 I 是 m Xm AAEE, 38 EDS] H 3f f 71i nT VA EI EL F E: 3X C10. 44) 的 最 优 解 
zO a0 veraz HIM mox d 矩阵 


DT 
< 


(2) 
zoT 


= 


ZT 


的 每 一 列 都 是 M 的 特征 向 量 。 而 且 由 于 式 (10. 44) 是 一 个 最 小 化 问题 ,Z 的 4 列 应 当 为 M 
的 从 大 到 小 排列 的 后 a 个 特征 根 对 应 的 特征 向 量 。 

以 上 是 局 部 线性 散 入 法 的 基本 形式 。 可 以 注意 到 ,M 最 小 的 特征 根 等 于 0。 这 是 因为 ， 
T SABE W 的 定义 有 Wi1 二 1, ,其 中 1 是 m 维 全 1 列 向 量 。 所 以 

MI, 1 —W)'ü —W)A, A-W) (1, —WL1,)— 0 

这 说 明 0 是 M 最 小 的 特征 根 。 一 般 认 为 与 特征 根 0 所 对 应 的 特征 向 量 并 不 携带 信息 ,所 以 
对 算法 作 一 些 细 节 上 的 改进 : 在 局 部 线性 嵌入 法 的 第 二 步 中 , 取 M 的 第 2 到 第 4 十 1 小 的 特 
征 根 对 应 特征 向 量 构成 的 矩阵 作为 输出 。 

综合 以 上 分 析 ,可 以 得 到 局 部 线性 骨 入 法 的 算法 描述 , 见 图 10. 18。 
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局 部 线性 嵌入 法 
fori —1.2.--.m: 
pick k nearest neighbors of x® ; xi? , x» see, x8 
iy T vim 
x62 T — y T 
xp T — y T 
v= (UU )1, 
ou ER 
m vl 


WES (wij )i<ii<n —0 
for i=1,2, sm: 
for t=1,2,* sk: 
玉民 
M= (I—W)T (I—W) 
compute eigenvalues of M: ài SA: RÀ, 
let v? ,***, v" be the corresponding eigenvectors 


return Z= (VT? ,om DVD) 


图 10.18 局 部 线性 嵌入 法 的 算法 描述 


图 10. 19 中 的 LLE 类 是 图 10. 18 中 算法 的 具体 实现 。 在 图 10. 19 中 ,第 5 一 7 行 的 构造 
函数 中 指定 了 降 维 的 目标 维度 d 以 及 算法 中 为 每 个 样本 选取 的 最 接近 点 的 个 数 上 。 第 24 一 
34 行 的 fit_transform 函数 是 算法 的 主体 。 第 26 行 声 明了 一 个 Sklearn 工具 库 中 的 
NearestNeighbors 类 , 它 的 功能 是 为 每 个 样本 选取 距离 最 近 的 & 个 样本 (也 称 为 邻居 ) 。 对 
于 给 定 样本 ,NearestNeighbors 总 是 把 该 样本 本 身 算 成 一 个 距离 为 0 的 邻居 。 所 以 ,第 27 
行 的 kneighbors 函数 为 每 一 条 训练 数据 选 出 & 十 1 个 邻居 ,并 返回 一 个 mX (十 1) 和 矩阵 ,该 
矩阵 的 第 i 行 包含 样 本 zx 的 k 十 1 个 邻居 的 编号 ,并 且 第 一 个 总 是 i 本身 , 即 第 i 行为 i,i， 
iyd, 这 十 1 个 编号 。 在 第 27 行 中 ,将 kneighbors 函数 返回 的 矩阵 的 第 一 列 删 去 ,构成 
一 个 mXk HE knn。 它 的 第 i 行为 样本 x 最 接近 的 个 其 他 样本 的 编号 说 is，… ,ii。 

选 出 x? (i 二 1,2,…,m) 的 & 个 最 接近 样本 à uio e 之 后 ,在 第 28 行 调用 第 9 一 22 行 中 
的 get weights 函数 来 为 x” 计算 wo ,并 返回 下 一 步 中 要 用 到 的 矩阵 不 。 在 get. weights 函数 
中 ,第 13 一 16 行 计 算 矩 阵 吕 ,第 17 一 19 行 按照 式 (10. 49) 计 算 w” ,第 20,21 行 构造 矩阵 W. 

在 fit_transform 函数 中 ,在 第 29 行 计算 矩阵 M; 第 30—32 行 计算 M 的 特征 根 和 对 应 
的 特征 向 量 ; 第 33,34 行 取出 M 的 第 2 到 第 d 十 1 小 的 特征 根 对 应 的 特征 向 量 v™”,…， 
n74-D ee, yD ,生成 并 输出 矩阵 Z-( YTD Vu n747D Lue yD js 


machine learning.lib.lle 


fram sklearn.neighbors import NearestNeighbors 


ET 
2 
3 
4 class HE: 


图 10.19 局 部 线性 嵌入 法 的 算法 实现 


5 def __jinit_ (self, n omponents, n neighbors): 
6 self.d-n components 

ui self.k-n neighbors 

8 

9 def get weights (self, X, kmn): 

10 m, n-X.shape 

Tr WE np.zeros ( (m,m) ) 

12 for i in range (m): 

13 U- X kr ]].reshape (7 1,0) 

14 k-len(U) 

15 for t in range(k) : 

16 dtc--x i] 

17 C-U.dot (U.T) 

18 w- np. linalg.inv(C) .dot (np.ones ( (k,1)) ) 
19 w/— w.sum (axis- 0) 

20 for t in range(k) : 

21 LESE ERLLRS 

22 retum W 


24 def fit_transfom(self,X) : 


25 m, n-X.shape 

26 model-NearestNeighbors (n neighbors self.k + 1) .fit (X) 

27 kmn= model.kneighbors (X, retum distance False)[ :, 1:] 

28 W-self.get weights(X, knn) 

29 M (np.identity (m)- W) .T.dot (np. identity (m) - W) 

30 eigen values, eigen vectors- np.linalg.eig(M) 

3 pairs-[ (eigen values i], eigen vectors :, i]) for i in range(m) ] 
32 pairs= sorted (pairs, key = lambda pair: pair{ 0]) 

33 Z-np.array( paird i+ 1]| 1] for i in range (self.d) ]) .T 

34 retum Z 


图 10.19 (55 


例 10.3 瑞士 卷 数据 降 维 。 

瑞士 卷 数 据 集 是 Sklearn 数据 库 中 的 一 个 常用 的 数据 集 。 图 10. 17 就 是 一 组 瑞士 卷 数 
据 样本 。 由 于 该 数据 集 的 数据 分 布 类 似 瑞 士 卷 蛋糕 ,因此 它 被 形象 地 称 为 瑞士 卷 数 据 集 。 
瑞士 卷 数据 集中 的 数据 分 布 于 三 维 空间 。 本 例 用 局 部 线性 嵌入 法 将 其 数据 降 维 为 二 维 。 

由 于 瑞士 卷 数据 是 二 维 平面 卷 成 的 ,所 以 这 是 一 个 经 典 的 流 形 降 维 问题 。 在 图 10. 20 
的 算法 中 ,第 7 行 导入 瑞士 卷 数据 。 为 了 展示 算法 的 降 维 效果 ,赋予 每 个 样本 点 一 个 颜色 。 
第 8.9 行 用 图 10. 19 中 的 局 部 线性 戏 入 法 进行 降 维 。 第 10.11 行 直观 展示 降 维 效果 。 在 第 
10 行 中 ,每 个 样本 点 在 降 维 前 后 的 颜色 保持 不 变 。 
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inport numpy as np 

fram sklearn import datasets 

import matplotlib.pyplot as plt 

fron machine learnirg.lib.lle impor LIE 


np.randam.seed (0) 

X, color-datasets.samples generator.make swiss roll(n samples- 1500) 
model-IIE(n oomponents-2, n neighbors- 12) 

Z-model.fit transform(X) 

plt.scatter (zd :, 0], Æ :, 1], c- color) 

plt.show() 


co 0-10 0 UU lMu-o 


已 
o 


m 
E 


图 10.20 ”瑞士 卷 数据 降 维 的 局 部 线性 嵌入 


图 10. 20 的 运行 结果 如 图 10. 21 所 示 。 从 图 10. 21 中 可 以 看 出 ,局 部 线性 内 入 的 效果 
是 保持 样本 之 间 的 局 部 线性 关系 ,将 高 维 流 形 “ 展 平 " 至 低 维 空间 。 


-004 -002 000 Q2 004 0.06 
图 10.21 瑞士 卷 数据 的 局 部 线性 嵌入 法 降 维 


10.4.2 多 维 缩放 法 


多 维 缩放 法 (Multi-Dimension Scaling, MDS) 的 基本 思想 是 保持 样本 点 之 间 的 距离 经 降 
维 后 不 改变 。 给 定 一 组 n 维 向 量 x ,x2 ex" CR", BERCE d 维 。 多 维 缩 放 法 
的 目标 是 ,计算 一 组 z9 ,z2 Lez € RA ,使 得 对 任意 的 1-3 jm o 


l| z? —z29 = Ix? —x9 I (10. 50) 
为 了 阑 述 多维 缩 放 法 的 思路 及 具体 计算 步骤 ,首先 介绍 算法 的 理论 依据 。 对 任意 的 < 
i,j&m, itd; — || x? —x? || sbg — (x9? ,x? ) x? Tx? 。 


定理 10.5 HFA sa a.a eR 如 果 它 们 满足 二)x? — o. W 
t=1 
对 任意 的 <i jm 都 有 
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ld ISa om d 
i 2 (a m 2 d m 2 did": 
WEBB: 为 了 简化 叙述 ,首先 定义 一 些 记号 。 


。 对 任意 Lm XE X. D, 为 x 与 m 个 向 量 的 距离 平方 的 平均 值 : 


EMT lJa- A: 154 
* EX Dm m— Áo P— 


* 定义 有 为 六 个 向 量 与 自身 内 积 的 和 : 
- E. 
t=l 
根据 di 的 定义 ,对 任意 的 1<i,j 三 m, 有 
di — (x9 — x )? (x? — x? ) 
— aO TyO 十 XOTXO — 2 yTy 
=b; d bj — 2b; 
在 式 (10.55) 中 对 下 标 i 求 和 ,可 得 
Da; = 2 bi +mbs 2215; 
i=l i=l i=l 


由 于 ly, 一 0, 所 以 b; = 0。 因此 有 
t=] ja 


Ša; = = 3 bi tmb; = B+ mb; 
同 理 ,在 式 (10.55) 中 对 下 标 j X. 可 得 


P dj b> b; +mb: = B+mbs 
在 式 (10. 57 POE FER i FUE 可 得 


$ di = mB 十 Fint = 2m 
i=1 


i-1 j=1 


综合 式 (10. 53) 和 式 (10. 58) ,可 得 


=w 
B=3P 

将 式 (10. 59) 代 入 式 (10. 56) ,可 得 
I Su. d 1 D 
bi m » di me D; m D; 2 

将 式 (10. 59) 代 入 式 (10. 57) ,可 得 
[wx l 1 D 
bi m 2; 4i ^ D, m" D; 2 


(10. 


(10. 


(10. 


(10. 


(10. 


51) 


52) 


53) 


54) 


55) 


.58) 


.99) 


.60) 


.61) 
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最 后 ,结合 式 (10. 55) 3X (10. 60) 和 式 (10. 61) ,可 得 


1 L og 
bs 2 ) 2? (di D; —D; t D) 


这 就 完成 了 定理 10. 5 的 证 明 。 
若 向 量 x a? ea AR GERE 10,5 中 的 条 件 二 > x? — o. 则 可 以 通过 平移 向 
1-1 


量 使 这 个 条 件 得 到 满足 。 

定理 10. 5 表明 了 ,两 个 向 量 的 内 积 可 由 它们 之 间 的 距离 唯一 确定 。 因 此 ,如 果 任 意 两 
个 向 量 x? O ERRET x 与 x 的 距离 由 W 2° 与 20 的 内 积 就 等 于 x? 与 x 的 
WE. d 


(di — b: —b 


d 


xT zT 

x?T zT 
B-—(buee X=| . B^ Z= 

x™T zT 


根据 定理 10.5, 有 B=XX'==2Z2Z7。 

依据 上 述 的 理论 推导 ,多 维 缩放 法 首先 根据 XX 计算 B 二 XX7 ,然后 构造 mox d BIZ. 
使 得 ZZTsB。 以 下 介绍 构造 2 的 具体 方式 。 

由 于 B 是 一 个 mXm FEE PREE . LEA BA m 个 非 负 特征 根 Xj 宇 hs 三 … 宇 4,, 宇 0， 
并 且 有 如 下 的 特征 值 分 解 : 

B = VEV” (10. 62) 

HUB.E 是 一 个 m Xm 对 角 阵 。 其 对 角 线 元 素 为 入 ,Xs,… ,4,。VV 的 第 i IA A; 对 应 的 单位 
特征 向 量 (i 二 1,2,…,m), 且 V 的 各 列 相互 正 交 , 即 VV 二 I。 定 义 


JA 
Z =V Va 
An. 
则 根据 式 (10. 620 ,可 得 
B= ZZ" (10. 63) 


式 (10.63) 中 的 Z 是 一 个 mXm 矩阵。 多 维 缩放 法 的 任务 是 : 计算 一 个 mXd 的 矩阵 
2 ,使 得 ZZT 近 似 等 于 B。 因 此 ,多 维 缩放 法 只 选取 Z 中 最 重要 的 d 列 来 构造 Z。 具 体 的 做 
法 是 : 选取 B 的 按 从 大 到 小 排列 的 前 d 个 特征 根 X 宇 Xs 宇 … 宇 和 及 其 对 应 的 特征 向 量 , 即 
V 的 前 4 Plo o e v0, M Z HUF RO mX d 矩阵; 
P" 
(2) e Vaa (2) 


sac: an -i 
UU) : = (Ai v9 , A; v? ,-- /lav ) 


Z= (v? ,v 


Aa. 
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如 此 得 出 的 ZZ" 是 B 的 最 佳 近似 。 图 10. 22 是 按照 这 个 思路 的 多 维 缩放 法 描述 。 


多 维 缩放 法 


1X 
p= p 
for t=1,2, sm: 
x? x? —p 
aO T 


DT 
x 
x= 


x™T 
compute eigenvalues of B— XX" ; à; 2A: ZA, 
let v” , v? ,um be the corresponding eigenvectors 
return Z= (VA v? ,VA v? ,--- A, v? ) 


图 10.22 ”多维 缩放 法 的 算法 描述 


观察 图 10. 22 中 的 算法 ,可 以 看 出 , 它 实 际 上 就 是 图 10. 8 中 主 成 分 分 析 法 的 等 价 形式 ， 


两 种 不 同 的 降 维 思想 殊途同归 。 


图 10. 23 是 对 图 10. 22 中 算法 的 具体 实现 。 


machine learning.lib.mds 

1 import numpy as np 

2 

3 class MÆ: 

4 def | init (self, n oqmponents): 

5 self.d-n components 

6 

7 def fit transform(self, X): 

8 m n-X.shape 

9 sSelf.mean- X.mean (axis- 0) 

10 X- X- self.mean 

nu B-X.dbt (X.T) 

12 eigen values, eigen Vectors= np.linalg.eig(B) 

13 pairs-[ (eigen valued i], eigen vectord :,i]) for i in range (9) ] 

14 pairs sorted (pairs, key- lambda pair: pair 0], reverse- True) 

15 Z-np.array ( paird i][1]* np.sart (pairs i][ 0]) for i in 
range (self.d)]).T 

16 retum Z 


图 10.23 ”多维 缩放 法 的 算法 实现 


在 瑞士 卷 数据 集 上 ,用 图 10. 23 中 的 多 维 缩放 法 降 维 ,得 到 图 10. 24 中 的 结果 。 通 过 与 


图 10. 21 对 比 ,可 以 看 出 多 维 缩放 法 与 局 部 线性 嵌入 法 的 不 同 之 处 。 多 维 缩放 法 通过 保持 
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样本 之 间 的 距离 将 高 维 流 形 做 刚性 变化 ,将 其 “ 压 扁 ”至 低 维 空间 中 。 


图 10.24 瑞士 卷 数据 的 多 维 缩放 法 降 维 


10.5 自动 编码 器 


自动 编码 器 是 神经 网 络 在 降 维 问题 中 的 应 用 。 自 动 编码 器 的 理论 较为 简单 , 它 主要 借 
助 于 神经 网 络 的 强大 威力 来 进行 降 维 。 

自动 编码 器 由 编码 器 和 解码 器 两 部 分 组 成 。 首 先 ,通过 一 组 多 层 的 神经 网 络 来 提取 样 
本 中 的 重要 信息 ,这 一 组 神经 网 络 就 称 为 编码 器 ,编码 器 的 输出 称 为 编码 。 然 后 ,再 通过 编 
码 器 的 镜像 来 重 构 数据 。 编 码 器 的 镜像 也 称 为 解码 器 , 它 是 与 编码 器 结构 相同 但 反 向 分 布 
的 神经 网 络 ,解码 器 的 输出 就 称 为 重 构 。 图 10. 25 展示 了 自动 编码 器 的 结构 。 

在 一 个 降 维 问题 中 ,如 果 将 编码 器 的 最 后 一 层 的 神经 元 个 数 设 为 降 维 的 目标 维度 d 
编码 器 的 输出 zxER“ 就 是 自动 编码 器 对 输入 样本 xER" 的 降 维 结果 。 由 于 解码 器 是 编码 器 
的 镜像 ,因此 ,解码 器 的 输出 x 是 一 个 n 维 向 量 。 将 xX 与 x 的 距离 的 平方 |X 一 x 定义 为 
重 构 误差 。 自 动 编码 器 算法 的 目标 是 : 训练 编码 器 与 解码 器 ,使 得 重 构 误差 最 小 。 

下 面 以 例 5. 10 中 介绍 的 手写 数字 数据 集 MNIST 为 例 ,介绍 自动 编码 器 的 降 维 算法 。 
为 了 将 784 维 的 手写 数字 图 片 数 据 降 至 二 维 , 构 造 一 个 如 图 10. 26 所 示 的 自动 编码 器 。 在 
图 10. 26 的 自动 编码 器 结构 中 .编码 器 含有 两 个 隐藏 层 hiddenl 和 hidden2, 这 两 层 中 分 别 
有 300 个 和 100 个 神经 元 。 编 码 器 的 输出 层 encoder_outputs 中 含有 两 个 神经 元 ,这 一 层 的 
输出 即 为 降 维 的 结果 。 随 后 的 解码 器 部 分 是 编码 器 的 镜像 , 它 含 有 两 个 隐藏 层 hidden3 和 
hidden4 ,这 两 层 中 分 别 有 100 个 和 300 个 神经 元 。 最 后 ,解码 器 的 输出 层 decoder_outputs 
中 含有 784 个 神经 元 ,其 输出 结果 是 对 数据 的 重 构 。 

图 10. 27 是 手写 数字 数据 降 维 的 自动 编码 器 算法 。 在 图 10. 27 中 ,第 5 一 19 行 按 图 10. 26 
中 的 结构 来 构造 自动 编码 器 。 在 第 21 行 ,定义 损失 函数 为 重 构 误差 recover_loss。 第 25— 


284 


解码 器 


= 


loce) 
图 10.25 自动 编码 器 结构 
784| O Q xs O ) decoder outputs 
at hidden4 
hidden3 


"(O O m Q J|x 


Æ 10.26 手写 数字 数据 降 维 的 自动 编码 器 结构 


33 行 通过 小 批量 梯度 下 降 算 法 来 训练 模型 。 第 35 行 取出 降 维 的 结果 encoder_outputs。 第 
36,37 行将 降 维 后 的 数据 展示 在 二 维 平面 上 。 


import tensorflow as tf 
fram tensorflow.examples.tutorials.mnist import input data 
import matplotlib.pyplot as plt 


n features- 28* 28 
n hiddenl- 300 


oO 0 & Q N PP 


图 10.27. 手写 数字 数据 降 维 的 自动 编码 器 算法 
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7 n hidden2- 100 
8 n encoder outputs =2 

9 n hidden3-n hidden? 

10 n hidden4-n hiddenl 

1l n decoder ouputs-n features 


13 X-tf.placeholder(tf.float32, shape- (None, n features)) 

14 hiddenl-tf.layers.dense(X, n hiddenl, activation —tf.nn.relu) 

15 hidden2- tf.layers.dense (hiddenl, n hidder2, activation- tf.nn.relu) 

16 encoder outputs = tf.layers.dense (hidden?, n encoder outputs) 

17 hidden3-tf.layers.dense (encoder outputs, n hidden, activation- tf.nn.relu) 
18 hidden4- tf.layers.dense (hidden3, n hidden4, activation- tf.nn.relu) 

19 decoder outputs- tf.layers.dense (hidden, n decoder cuputs) 


21 recover loss-tf.reduce mean (tf.sqguare (decoder outputs- X)) 
22 optimizer-tf.train.AdamOptimizer (learning rate- le- 4) 
23 train cp= optimizer.minimize (recover loss) 


25 with tf.Session() as sess: 

26 tf.global variables initializer().run() 

2 mist= input data.read data sets ("MIST data/", one hot= False) 
28 n epoches- 10 

29 batch size- 150 

30 for epoch in range(n epocdhes) : 

31 for batch in range (mist.train.num examples//batch size): 

X batch, -mnist.train.next batch(batch size) 
sess.run(train op, feed dict- (X: X batch}) 


Ze sess.run(encoder outputs, feed dict- (X:mist.train.images]) 
plt.scatter (Z :,0], £ :,1], c-miist.train.labels) 
3] plt.show() 


图 10.27 ( 续 ) 


运行 图 10. 27 中 的 算法 ,就 可 得 到 如 图 10. 28 所 示 的 降 维 结果 直观 展示 。 其 中 ,不 同 的 


颜色 表示 不 同 的 数字 。 与 图 10. 6 中 的 主 成 分 分 析 法 的 降 维 结果 相 比 ,自动 编码 器 


算法 的 降 


维 结果 对 不 同 数字 的 区 分 度 更 高 一 些 。 这 说 明 , 在 手写 数字 数据 集 这 个 例子 中 ， 


同样 是 将 


784 维 的 手写 数字 图 片 数据 降 至 二 维 ,自动 编码 器 算法 的 降 维 效果 优 于 主 成 分 分 析 法 。 


图 10.28 自动 编码 器 算法 对 手写 数字 数据 的 降 维 效果 


小 结 


降 维 算法 是 一 类 重要 的 特征 组 处 理 算法 。 对 高 维特 征 组 进行 降 维 ,不 仅 能 提高 机 器 学 
习 算 法 的 运行 效率 ,也 可 以 节省 存储 空间 ,还 能 够 降低 过 度 拟 合 的 概率 。 

本 章 介绍 了 两 类 主流 的 降 维 算法 。 第 一 类 是 基于 投影 的 算法 。 主 成 分 分 析 法 是 这 类 算 
法 的 典型 代表 。 主 成 分 分 析 法 的 思想 是 : 计算 一 条 数据 的 低 维 投影 ,使 得 其 投影 方差 最 大 
化 。 用 带 约 束 优化 的 KKT 理论 ,投影 方差 最 大 化 问题 可 以 转化 成 对 矩阵 特征 根 和 特征 向 量 
的 计算 。 得 益 于 一 系列 完美 的 理论 推导 , 主 成 分 分 析 法 的 算法 描述 简 炼 ,而 且 实现 容易 。 正 
因 如 此 , 主 成 分 分 析 法 是 最 为 常用 的 降 维 算 法 之 一 。 

使 用 主 成 分 分 析 法 对 样本 特征 组 降 维 有 一 个 重要 的 前 提 条 件 , 即 样本 特征 组 中 存在 线 
性 相关 关系 。 核 方法 的 引入 突破 了 这 一 限制 。 核 方法 的 思想 是 : 将 数据 变换 至 更 高 维 的 空 
间 中 ,使 得 经 过 变换 后 的 数据 近似 地 分 布 于 某 个 低 维 线性 子 空间 。 在 使 用 核 方 法 时 ,要 求 算 
法 只 涉及 向 量 内 积 的 计算 。 用 矩阵 奇异 值 分 解 理论 可 以 得 出 主 成 分 分 析 法 的 一 个 只 涉及 内 
积 计算 的 等 价 描述 ,从 而 顺利 地 支持 了 核 方法 。 除 了 第 6 章 中 的 支持 向 量 机 算法 以 外 , 主 成 
分 分 析 法 是 核 方法 的 另 一 个 重要 应 用 场合 。 

如 果 一 个 降 维 问题 中 的 样本 数据 带 有 标签 , 则 可 以 利用 标签 信息 更 好 地 降 维 。 线 性 判 
别 分 析 法 就 是 一 个 针对 带 有 标签 的 降 维 问题 的 算法 。 通 过 近似 地 最 大 化 样本 投影 后 的 类 间 
散 度 以 及 最 小 化 类 内 散 度 , 带 有 相同 标签 的 样本 经 降 维 后 聚 在 一 起 ,而 带 有 不 同 标签 的 样本 
经 降 维 后 则 被 区 分 开 来 。 

第 二 类 降 维 算法 是 基于 流 形 的 算法 。 本 章 介绍 了 两 个 常用 的 流 形 降 维 算法 : 局 部 线性 
嵌入 法 与 多 维 缩放 法 。 局 部 线性 嵌入 法 的 思想 是 保留 数据 的 局 部 线性 关系 ,因而 它 的 效果 
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是 将 高 维 流 形 展 平 。 多 维 缩放 法 保持 数据 的 距离 不 变 , 所 以 它 的 效果 是 将 高 维 流 形 刚性 地 
压 扁 至 低 维 空间 。 

最 后 ,本 章 还 介绍 了 自动 编码 器 降 维 算法 。 用 深度 神经 网 络 进行 降 维 是 机 器 学 习 前 沿 
算法 为 经 典 领域 注入 的 新 思路 。 


习题 


10.1 设 有 两 个 三 维 样本 向 量 : x — (2,2,0).x'? 一 (0,2,2)。 试 用 主 成 分 分 析 法 将 
它们 降 至 二 维 。 
10.2 设 有 两 个 三 维 样本 向 量 : x — (2.2.0) x? 一 (0,2,2)。 试 用 多 维 缩放 法 将 它 
们 降 至 二 维 。 
10.3 考察 如 下 带 标签 的 降 维 问题 : 
xU 41,450)» 39 
x" — (0,12). y? 
x9 — (159,499 y= 
x —(0,1,0), 34/9-— 
试用 线性 判别 分 析 法 将 上 述 数 据 降 至 二 维 。 
10.4 JE EB EAE o 
意 尾 花 数 据 集中 的 每 一 条 数据 都 含有 4 个 特征 : EXHI ERE IEEE IEEE, i 
条 数据 有 一 个 取 值 属于 {0,1,2} 的 标签 o FÉ TE BR RBS o 
基于 图 10. 29 中 的 程序 ,分别 用 主 成 分 分 析 法 . 主 成 分 分 析 的 核 方法 以 及 线性 判别 分 析 
法 将 数据 降 至 二 维 , 并 比较 这 3 个 算法 的 降 维 效果 。 


Il 
a a oD 


fram sklear import datasets 
iris-datasets.load iris() 
y-iris.target 


S dg PP 


图 10.29 获取 营 尾 花 数 据 的 程序 


10.5 同心 圆 数据 降 维 。 

Sklearn 数据 库 中 提供 了 同心 圆 数 据 集 。 在 同心 圆 数 据 集中 ,每 个 数据 都 是 一 个 二 维 向 
量 ,表示 平面 上 的 一 个 点 。 数 据 集中 共 含 有 两 类 数据 ,一 类 数据 的 分 布 形成 平面 上 一 个 大 
, 另 一 类 数据 的 分 布 形成 平面 上 一 个 小 圆 。 图 10. 30 是 同心 圆 数 据 集 的 一 组 数据 采样 的 
例子 。 
图 10. 31 中 的 程序 生成 一 组 同心 圆 数 据 采 样 。 第 2 行 生 成 数据 的 特征 X 和 标签 y。 其 
中 ,y 的 值 为 0 的 数据 属于 大 圆 ,> 的 值 为 1 的 数据 属于 小 圆 。 
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图 10.30 同心 圆 数 据 集 采 样 


1 frm sklearn.datasets import make circles 
2 X, y-make circles(n samples- 400, factor- .3, noise- .05) 


图 10.31 生成 同心 圆 数据 采样 的 程序 


基于 图 10. 31 中 的 程序 ,分 别 用 主 成 分 分 析 法 . 主 成 分 分 析 的 核 方法 以 及 线性 判别 分 析 
法 将 数据 降 至 一 维 , 并 比较 这 3 个 算法 的 降 维 效果 。 

10.6 S 形 流 形 降 维 。 

在 Sklearn 工具 库 中 集成 了 S 形 流 形 数据 集 。 该 数据 集中 的 每 条 数据 都 是 三 维 空间 中 
的 一 个 点 ,并 且 带 有 颜色 。 数 据 的 分 布 呈 SIE. 图 10. 32 是 S 形 流 形 数据 集 的 一 组 数据 


Nc " E - — sS 
-1.00 -0.75 -0.50 -0.25 0.00 0.25 0.50 0.75 1.00 ™ 
E 10.32 S 形 数据 集 采样 


图 10. 33 中 的 程序 生成 S 形 数据 采样 。 基 于 图 10. 33 中 的 程序 ,分 别 用 局 部 线性 散人 
法 和 多 维 缩放 法 将 数据 降 至 二 维 , 并 比较 两 种 算法 的 降 维 效果 。 


289 


机 器 学 习 算 法 导论 l 


fram skleam inport datasets 
import matplotlib.pyplot as plt 
franmpl toolkits.mplot3d import Axes3D 


X, color-datasets.samples generator.make s curve(n samples- 1500) 
ax-plt.axes (projection- '3d') 

ax.scatter (d :, 0], X :, 1], X :, 2], c=color) 

ax.view init(4, - 72) 


plt.show() 


o 0 -0 0 € n-o 


图 10.33 生成 S 形 流 形 数据 的 程序 


10.7 Yale 人 脸 数据 降 维 。 
Yale 人 脸 数据 集 @ 是 一 个 常用 的 测试 人 脸 识别 算法 的 数据 集 。 该 数据 集中 含有 来 自 15 
个 人 的 165 张 照片 。 数 据 集中 的 每 个 人 都 有 11 张 照片 。 照 片 分 别 有 如 下 主题 : 正面 光照 、 
左面 光照 .右面 光照 . 戴 眼 镜 、 不 戴 眼 镜 、 正 常 . 快 乐 .悲伤 .疲倦 .惊讶 .是 眼 。 图 10. 34 是 
Yale 人 脸 数据 集 的 一 组 数据 采样 。 


图 10.34 Yale 人 脸 数据 集 采 样 


将 Yale 人 脸 数据 集 下 载 至 当前 目录 后 ,可 用 图 10. 35 中 的 程序 读 入 数据 集中 的 图 片 。 
第 11 行 的 images 为 图 片 的 像素 灰 度 矩阵 。 第 12 行 的 labels 为 人 物 编号 。 第 13 行 的 
subjects 为 照片 的 主题 。 


import numpy as np 

fram skimage import io 

import os 

import matplotlib.pyplot as plt 


Oo UNE 


10.35 R Yale 人 脸 数据 集 的 程序 


© 原 数据 来 自 http://vision. ucsd. edu/content/yale-face-database, 也 可 从 GitHub 网 站 本 书页 面 下 载 。 
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6 def read face images(data folder): 

7 image paths-[os.path.join(data folder, item) for item in os.listdir(data folder)] 

8 images, labels, subjecte-[ ], [ ], [] 

9 for image path in image paths: 

10 im-io.imread(image path,as grey- True) 

11 images.append (np.array (im, dtype= 'uint8')) 

12 labels.append(int (os.path.split (image path)[ 1] .split(".")[ 0] .replace ("subject", ""))) 
13 subjects.append(os.path.split (image_ path)[ 1] .split (".")[ 1]) 

14 retum np.array (images), np.array (labels), np.array (subjects) 

15 


16 data folder- "./yalefaces" 

17 images, labels, subjects- read face images(data folder) 
18 pit.imshow(imaged 1]) 

19 pit.show() 


图 10.35 (55 


(1) 基于 图 10. 35 中 的 程序 ,用 自动 编码 器 算法 对 Yale 人 脸 图 片 进行 降 维 。 

(2) 将 数据 降 至 二 维 , 并 将 降 维 的 结果 可 视 化 。 要 求 不 同 主题 的 图 片 对 应 的 点 采用 不 
同 的 颜色 。 

10.8 主 成 分 分 析 法 与 自动 编码 器 算法 。 

主 成 分 分 析 法 的 指导 思想 是 最 大 化 投影 方差 ,而 自动 编码 器 算法 的 指导 思想 是 最 小 化 
还 原 误差 。 尽 管 看 似 不 同 ,实际 上 ,这 两 个 指导 思想 所 产生 的 算法 殊途同归 。 以 下 分 步 证 
明 ; 不 含有 隐藏 层 的 自动 编码 器 算法 就 是 主 成 分 分 析 法 。 

IAE m Ar n HEIL RE x D x? ,xz ,要 将 它们 降 至 4d 维 。 不 含 隐藏 层 的 自动 编码 器 算 
法 的 任务 是 计算 nxXd EW AR d Xn 和 矩阵 UU, 使 得 


Y gae -uw |? (10.64) 
最 小 化 。 
CD 证 明 : 如 果 W RU fX C10. 64) 7] fe Dll A 8 U—W" H WW=I. hea, 
优化 式 (10. 64) 等 价 于 以 下 带 约束 的 优化 问题 : 


min >) || x? —ww?x? ||? 
i=l 


约束 : WW =I (10. 65) 
(2) 定义 
x(DT 
x»T 
X-— n 
eT 
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证 明 : 式 (10.65) 中 的 优化 问题 等 价 于 
max Tr(W? X? XW) 
Zg:w'Ww-I (10. 66) 


其 中 ,Tr(。) 是 方 阵 的 迹 函 数 。 

(3) B Ai szot ,ha JE XTX 的 最 大 的 d 个 特征 根 , 且 wo ow? ,…,w'2 是 其 相应 的 相互 
正 交 的 单位 特征 向 量 。 证明; W= (w w? ,…,w'2o ) 是 式 (10. 66) 的 最 优 解 。 
由 以 上 步骤 就 证 明了 不 含有 隐藏 层 的 自动 编码 器 算法 就 是 主 成 分 分 析 法 。 


Bro RR WD dh 


聚 类 分 析 是 对 未 知 分 类 的 事物 按 物 以 类 聚 的 思想 对 其 进行 分 类 的 一 种 算法 。 它 是 依据 
一 种 能 客观 反映 事物 之 间 亲 朴 关 系 的 指标 将 事物 分 成 若干 类 ,并 使 同一 类 中 的 事物 具有 相 
似 或 相近 的 特征 或 性 质 , 不 同类 的 事物 具有 不 同 的 特征 或 性 质 。 

聚 类 分 析 最 早 用 于 生物 学 分 类 。 生 物 学 家 根据 各 种 生物 的 特征 ,将 它们 归属 于 不 同 的 
界 . 门 纲目. 科 、 属 .种 之 中 。 随 着 社会 经 济 的 发 展 ,在 自然 科学 和 社会 科学 的 各 个 领域 中 
都 出 现 了 大 量 的 分 类 研究 问题 。 因 而 , 聚 类 分 析 在 这 些 领 域 中 也 已 经 有 了 广泛 的 应 用 。 例 
如 ,在 经 济 研究 中 ,将 城镇 划分 为 不 同 的 类 型 ,以 研究 居民 的 收入 及 消费 状况 ;在 金融 领域 
中 ,通过 客户 特征 检测 来 防范 信用 卡 欺诈 ;在 工业 生产 中 ,根据 产品 指标 特征 来 识别 残 次 品 ; 
在 临床 医学 研究 中 ,根据 症状 特征 对 病人 分 型 ,以 便 提高 疗效 ;等 等 。 

聚 类 分 析 也 可 以 用 于 监督 式 学 习 问 题 的 数据 特征 处 理 。 在 一 个 监督 式 学 习 问 题 中 ,可 
以 先 通 过 聚 类 算法 给 每 个 样本 赋 一 个 类 别 值 。 这 一 类 别 值 编码 了 样本 之 间 的 相似 度 , 它 可 
以 作为 一 个 额外 的 特征 输入 给 监督 式 学 习 算 法 。 当 数据 量 十 分 庞大 时 ,可 以 先 将 数据 聚 类 ， 
然后 选 出 每 一 类 的 代表 作为 监督 式 学 习 算 法 的 数据 输入 。 这 样 做 ,可 以 降低 数据 占用 的 空 
间 并 提高 算法 的 运行 速度 。 

由 于 上 肾 类 分 析 是 对 无 标签 信息 的 数据 样本 ,根据 其 特征 来 进行 分 类 ,因而 它 是 一 个 无 监 
督学 习 算 法 。 聚 类 算法 有 3 个 常用 的 分 类 准则 ,分 别 是 基于 划分 的 聚 类 、 基 于 层级 的 聚 类 以 
及 基于 密度 的 聚 类 。 体 现 这 3 个 分 类 准则 的 代表 性 算法 分 别 是 & 均值 算法 、 合 并 聚 类 算法 
fll DBSCAN 算法 。 


11.1 大 均值 算法 


给 定 m 个 数据 样本 x ax? ,xm ER”"。 每 个 数据 样本 可 以 看 作 n 维 空间 中 的 一 个 
点 。 假 设 需要 将 m 个 数据 样本 聚 成 & DR., k 均值 算法 的 基本 思想 是 : 选取 R" 中 的 & 个 点 
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cO ue ,sc 作为 中 心 ,并 将 每 个 数据 样本 分 配 至 与 其 距离 最 近 的 中 心 , 使 得 所 有 样本 到 
分 配 到 的 中 心 的 距离 之 和 最 小 。 这 样 一 来 ,分 配 到 同一 中 心 的 样本 就 聚 成 一 类 。 采 用 这 种 
方法 ,就 可 以 将 m 个 样本 聚 成 个 类 。 

按照 上 述 思 想 ,算法 的 关键 之 处 是 选取 数据 样本 的 个 中 心 。 然 而 ,在 计算 复杂 性 理论 
中 已 经 证 明 , 中 心 问题 是 一 个 NP 难 (NP-hard) 的 问题 。 在 这 种 情况 下 ,k 均值 算法 就 采用 
迁 代 的 方式 逐步 实现 聚 类 的 目标 。 即 , 先 随机 选取 A 个 点 作为 初始 中 心 ,并 以 它们 为 基础 进 
行 样本 的 初始 分 类 。 然 后 ,通过 迁 代 的 方式 不 断 调 整 中 心 的 位 置 以 及 样本 的 分 类 ,从 而 不 断 
降低 全 体 样本 与 中 心 之 间距 离 的 总 和 。 按 这 种 迭代 方式 来 寻找 数据 样本 的 & 个 中 心 ,得 到 
的 是 中 心 问题 的 一 个 近似 解 。 因 此 ,k 均值 算法 是 一 个 近似 算法 。 尽 管 如 此 ,k 均值 算法 
在 许多 实际 应 用 中 都 能 够 快速 收敛 并 有 效 地 将 数据 聚 类 。 

图 11.1 是 对 均值 算法 的 描述 。 算 法 的 输入 是 m 个 样本 x ax? eux" ER". RAR 
目标 是 计算 个 中 心 c e? ,… ,cER”"。 中 心 的 个 数 k& 和 循环 的 轮 数 N 是 算法 的 两 个 参 
数 。& 均值 算法 初始 时 随机 选取 个 点 作为 类 中 心 。 然 后 ,循环 地 执行 以 下 的 两 步 : 样本 归 
类 与 中 心 调整 。 在 样本 归 类 这 一 步 中 ,算法 将 每 一 个 样本 划 归 到 当前 选取 的 & 个 中 心中 离 
该 样本 最 近 的 那个 中 心 所 属 的 类 中 。 全 部 样本 归 类 结束 之 后 ,样本 就 聚 成 了 & 类 。 接 着 , 转 
入 中 心 调整 ,在 这 一 步 中 ,算法 计算 出 每 一 类 中 样本 的 平均 值 , 并 将 其 选 为 该 类 新 的 中 心 。 

大 均值 算法 


D eO ,oes eO 


pick c at random 
for t=1,2," di 
l. assign to centers 
C,,C 0, Z] 
for i=1,2, sm: 


j’ =argmin I x? —e*? || 
Cj: C; U (x?) 
2. adjust centers 
for j21.2.*.h: 


c? < 


Te 


x€c 


return e ae Ven c9 


图 11.1 k 均值 算法 描述 


在 图 11. 1 的 算法 的 每 一 轮 循环 中 ,样本 归 类 的 计算 时 间 复 杂 度 是 O (mn ) ,中 心 调 整 
的 时 间 复 杂 度 是 O(mnk)。 所 以 e 均值 算法 的 整体 时 间 复 杂 度 为 O (mnkN )。 

图 11. 2 是 图 11. 1 中 算法 的 具体 实现 。 在 图 11. 2 中 ,定义 了 KMeans 类 。 在 第 4 一 7 
行 中 的 构造 函数 ,指定 所 需 聚 类 的 类 数 & 和 循环 轮 数 N 。 

第 9~14 行 定 义 了 样本 归 类 函数 assign_ to_centers。 在 第 10 行 声 明了 一 个 
assignments 数组 。 对 1 三 i 三 m ,用 assignments; ito FEAR x 被 归 入 类 的 中 心 的 编号 。 在 
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第 11—13 行 的 循环 中 ,对 15m. 58 12 行 计 算 x? 与 & 个 中 心 的 欧 几 里 得 距离 。 在 第 13 
行 ,将 第 12 行 计算 出 的 & 个 距离 中 的 最 小 值 所 对 应 的 中 心 的 编号 赋予 assignments[]. iX 
就 完成 了 样本 的 归 类 步骤 。 

在 第 16 一 21 行 中 ,定义 了 中 心 调整 函数 adjust_centers。 第 19 行 构造 C;。 第 20 行 计 
算 新 的 中 心 。 

第 23 一 29 行 中 的 fit transform 函数 是 算法 的 主体 执行 部 分 。 第 24 一 25 行 随机 选取 & 
个 样本 点 作为 初始 中 心 。 第 26 一 28 行 执行 N 步 循环 。 在 循环 体 中 执行 样本 归 类 函数 
assign. to centers 和 中 心 调整 函数 adjust. centers. 


machine learning.clustering.lib.kreans 
1 import numpy as np 
2 
3 class Means: 
4 def — dnit (self, n clusters-1, max iter- 300, randm state- 0) : 
5 self.k-n clusters 
6 self.N-mex iter 
y np.randam.seed(randam state) 
8 
9 


def assign to centers (self, centers, X): 


10 assigments-[ ] 

11 for i in range(len()): 

12 distances-[ np.linalg.nom( i]- centersL j], 2) for j in 
range (self.k) ] 

13 assignments.appernd (np.argmin (distances)) 

14 return assignments 

15 

16 def adjust centers (self, assignments, X): 

17 new centers-[ ] 

18 for j in range (self.k): 

19 cluster j-[X i] for i in range (len ()) if assigmmentd i]--j] 

20 new centers.append(np.mean (cluster j, axis-0)) 

21 retum new centers 

z Pt 


23 def fit transform(self, X): 


24 idx-np.random.randint (0, len (X), self.k) 

25 centers-[ X i] for i in idx] 

26 for t in range (self.N): 

27 assignmments- self.assign to centers (centers, X) 
28 centers- self.adjust centers (assignments, X) 

29 return np.array (centers), np.array (assignments) 


图 11.2 k 均值 算法 实现 
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例 11.1 墨 渍 数据 的 聚 类 。 

在 例 7.7 中 ,对 墨 渍 数据 集 已 有 过 详细 的 介绍 。 墨 渍 数据 集中 的 每 一 个 数据 样本 都 是 
平面 上 的 一 个 点 。 图 11. 3 是 墨 渍 数据 集中 的 300 个 数据 样本 采样 。 图 11. 4 中 的 程序 用 
均值 算法 将 这 些 数据 样本 聚 为 3 类 。 


3 -2 4 0 1 2 3 4 
图 11.3 墨 渍 数据 集中 的 300 个 不 显示 标签 的 数据 样本 


在 图 11.4 中 ,第 4 行 导入 图 11.2 中 的 算法 。 第 6 行 导入 300 个 分 布 于 3 个 区 域 的 墨 渍 
数据 。 第 7 行 声明 一 个 KMeans 类 的 实例 ,并 指定 将 数据 聚 成 3 类 , 共 循 环 10 轮 。 第 10 一 
12 行 绘图 展示 聚 类 的 效果 。 


import numpy as np 

import matplotlib.pyplot as plt 

from sklearn.datasets import make blobs 

from machine learnirg.clustering.lib.kmeans import KMeans 


X, y-make blobs(n samples- 300, centers-3, cluster std- 0.8) 
model- KMeans (n clusters- 3, max iter- 10) 
centers, assignments- model.fit transform(X) 


10 pit.scatter(X :, 0], X :, 1], c- assignments) 
11 pit.scatter (centers :, 0], centerd :, 1], c= 'b') 
12 plt.show() 


E114 墨 渍 数据 聚 类 的 k 均值 算法 


运行 图 11.4 中 的 程序 ,得 到 如 图 11. 5 中 的 结果 。& 均值 算法 将 图 11. 3 的 墨 渍 数据 按 
847 Hb c? c x0 00 238, 
在 本 例 中 ,k 均值 算法 运行 了 指定 的 10 轮 的 循环 。 但 实际 上 ,在 第 5 轮 循环 之 后 ,算法 
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图 11.5 k 均值 算法 对 墨 渍 数据 的 聚 类 结果 


就 不 再 继续 调整 中 心 的 位 置 了 ,这 是 因为 此 时 选 出 的 3 个 中 心 已 经 是 最 优 解 了 。 因 此 ,在 5 
轮 循环 之 后 ,无 须 再 对 它们 做 出 任何 调整 ,此 时 就 称 & 均 值 算法 收敛 了 。 图 11.6 显示 出 了 
算法 的 收敛 轨迹 。 


H 


H 


. E. 
0 » x df 
算法 收敛 到 的 点 初始 随机 点 


3 2 4 9 1 23 3 4 
图 11.6 k 均值 算法 对 墨 渍 数据 聚 类 的 收敛 轨迹 


图 11.7 是 对 均值 算法 运行 过 程 的 进一步 剖析 。 从 图 11. 7 中 可 以 看 出 , 随 着 算法 对 
FP 心 位 置 的 不 断 调 整 ,逐渐 收敛 到 最 佳 的 中 心 选择 。 

均值 算法 并 不 适用 于 所 有 的 聚 类 问题 。 如 果 每 个 类 中 的 数据 都 构成 凸 集 , 即 任意 类 
P 两 点 的 连 线 都 完全 属于 该 类 ,A 均值 算法 就 有 较 好 的 效果 ,而 且 其 收敛 速度 快 。 然 而 , 当 


数据 的 分 布 不 满足 上 述 条 件 时 ,k 均值 算法 可 能 得 不 到 理想 的 分 类 结果 。 这 一 点 将 会 在 
例 11. 3 中 看 到 。 除 此 之 外 ,该 算法 还 要 求 预 先 确定 聚 类 的 类 数 &, 这 也 是 均值 算法 的 另 一 


个 不 足 之 处 。 在 许多 聚 类 问题 中 ,并 不 能 预先 确定 数据 能 够 被 聚 成 几 类 。 在 这 种 情况 下 ,如 果 


还 要 使 用 & 均值 算法 , 则 需要 尝试 多 个 不 同 的 & 值 ,然后 结合 样本 特征 确定 一 个 合理 的 值 。 
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图 11.7. k 均值 算法 对 墨 渍 数据 聚 类 的 过 程 


11.2 合并 聚 类 算法 


合并 聚 类 算法 是 经 典 的 层级 聚 类 算法 。 合 并 聚 类 算法 是 一 个 贪心 算法 。 它 的 思想 类 似 
于 经 典 图 算法 中 计算 最 小 支撑 树 的 Kruskal 算法 。 它 也 与 著名 的 赫 夫 曼 编码 算法 有 异 曲 同 
工 之 妙 。 设 需要 将 m 个 数据 样本 聚 为 k 个 类 。 用 合并 聚 类 算法 聚 类 时 , 先 将 每 一 个 数据 样 


本 自 成 一 类 ,随后 每 一 步 都 合并 距离 最 近 的 两 个 类 ,直至 将 m 个 数据 样本 聚 为 k 个 类 时 
^b. 

图 11. 8 直观 展示 了 合并 聚 类 算法 将 5 个 数据 样本 聚 为 2 类 的 过 程 。 图 11. 8(a) 是 最 初 
的 5 个 数据 样本 。 在 第 一 步 时 , 先 将 5 个 数据 样本 各 自 看 成 一 类 。 然 后 ,计算 5 个 类 的 两 两 
类 间距 离 。 类 间距 离 定义 为 两 类 的 中 心 之 间 的 欧 几 里 得 距离 。 类 的 中 心 定义 为 类 中 样本 的 
平均 值 。 图 11. 8(b) 是 聚 类 的 第 二 步 。 此 时 ,将 距离 最 近 的 1 类 和 2 类 合并 。 合 并 后 的 新 类 
编号 为 6。 经 此 步 并 类 后 ,5 个 类 就 减少 为 4 个 类 。 然 后 ,计算 当前 这 4 个 类 的 两 两 距离 。 
图 11. 8(c) 是 聚 类 的 第 三 步 。 此 时 ,将 距离 最 近 的 3 类 和 4 类 中 的 数据 样本 合并 ,并 将 合并 
后 的 新 类 编号 为 7。 经 此 步 并 类 后 ,4 个 类 就 减少 为 3 个 类 。 接 着 ,计算 当前 这 3 个 类 的 两 
两 类 间距 离 。 图 11. Nye iig 此 时 ,将 距离 最 近 的 6 类 和 7 类 合并 ,并 将 合并 
后 的 新 类 定义 为 8 类 。 这 一步 并 类 后 ,3 个 类 就 减少 为 2 个 类 。 此 时 ,已 经 满足 聚 为 2 类 的 
et ge eh 


0 ， OO: 


(d) 
图 11.8 合并 聚 类 算法 将 5 个 数据 样本 聚 为 2 类 的 过 程 


图 11.9 是 合并 聚 类 算法 的 描述 。 算 法 的 输入 为 冯 个 样本 xx2 eux" ECR". RK 
的 类 数 k 是 算法 的 一 个 参数 。 用 《表示 当前 聚 成 的 类 组 成 的 集合 。 在 初始 时 ,每 个 样本 各 
自 成 为 一 类 。 第 i 个 样本 x 是 类 C;。 也 就 是 说 ,初始 时 《中 包含 m 个 类 。 随 后 ,算法 以 迭 
代 的 方式 依次 合并 《中 的 类 。 在 每 一 个 迭代 循环 中 .算法 选取 《中 类 间距 离 最 近 的 两 个 类 
C, 和 C, 进行 合并 。 在 循环 的 过 程 中 ,new_id 是 当前 未 被 使 用 过 的 最 小 的 可 用 的 类 编号 。 
算法 将 C, 和 Ca 合并 生成 的 新 类 的 编号 定 为 new_id, 并 将 new id 的 值 增 1, 为 下 一 轮 循环 
做 准备 。 生 成 新 类 Cuewa 之 后 ,算法 将 C 和 C; 从 《中 删除 ,并 将 Cosewa 加 入 中 。 经 此 次 并 
类 ,中 类 的 个 数 减 1。 以 此 类 推 ,经 过 m — & 轮 循环 之 后 ,《 中 就 只 含有 个 类 。 此 时 ,算法 
输出 这 上 个 类 作为 合并 聚 类 的 结果 。 

在 图 11. 9 所 示 的 合并 聚 类 算法 的 循环 体内 ,《 中 有 O(m) 个 类 。 如 果 用 穷 举 的 方式 选 
出 距离 最 近 的 两 个 类 Ca 和 Ca , 则 每 一 轮 循环 需 耗 时 O(m?* )。 由 于 算法 要 进行 m — & 轮 循 
环 ,因此 ,整个 算法 的 时 间 复杂 度 为 Om). 
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合并 聚 类 算法 

for i—1,2,-*,m; G= (x? ) 

d— (6s 

new id— |C| +1 

while | € | >k: 
pick the closest two clusters C, Ci, € 
Cuwa =C, UC, 
6«—6— Ci, — Ci, T Cuv à 

new id--new idJ-1 
return € 


图 11.9 合并 聚 类 算法 描述 
为 了 能 够 更 加 高 效 地 实现 图 11. 9 中 的 算法 ,可 以 将 《中 的 (二 Om) 个 类 对 


(CisC; ) 存 和 人 一 个 优先 队列 H 中 。 类 对 (C;,C; ) 键 值 就 是 Ci 与 C; 之 间 的 距离 。 根 据 优先 队 
列 的 性 质 , 互 的 队 首 元 素 就 是 《中 类 间距 离 最 近 的 类 对 (C; ,Ci, )。 优 先 队 列 的 插入 和 删除 
运算 均 可 在 O(log m) 时 间 内 完成 , 且 取 出 队 首 元 素 只 需 O(1) 时 间 。 当 算法 将 C; LC, 合并 
成 Coewa 后 ,就 从 优先 队列 H 中 删 去 所 有 C; 与 《中 其 他 的 类 构成 的 类 对 ,同时 也 删 去 所 有 
Ci 与 《中 其 他 的 类 构成 的 类 对 。 每 一 次 删除 运算 需 耗 时 O(log m)。 在 最 坏 情况 下 ,要 进 
f$ OCm) 次 删除 运算 。 因 此 ,优先 队列 H 的 所 有 删除 运算 共 耗 时 O(m log m)。 最 后 ,还 需 
将 所 有 Cow 与 《中 其 他 的 类 构成 的 类 对 加 入 优先 队列 H Pe EREA H 中 插入 一 个 
类 对 需 耗 时 O(log m)。 在 最 坏 情况 下 ,要 插入 O(m) 个 类 对 。 因 此 ,优先 队列 H 的 所 有 插 
和 运算 共 耗 时 O (mlog m)。 综 上 所 述 ,如 果 使 用 优先 队列 , 则 循环 体 耗 时 O(mlog m). Pi 
此 可 见 , 用 优先 队列 实现 的 合并 聚 类 算法 耗 时 减 至 O(m?log m). 

图 11. 10 中 的 AgglomerativeClustering 类 是 用 优先 队列 实现 的 图 11. 9 中 的 合并 聚 类 
算法 。 在 第 5.6 行 的 构造 函数 中 ,指定 了 聚 类 的 类 数 k。 第 8 一 37 行 的 fit transform 函数 是 
算法 的 主体 。 第 10 行 声明 了 一 个 哈 希 表 C, 用 来 记录 当前 聚 成 的 所 有 类 。C 的 键 值 是 类 的 
编号 ,对 应 的 表 值 是 以 键 值 为 编号 的 类 中 的 全 体 样本 的 编号 。 第 10 行 还 类 似 地 声明 了 哈 希 
表 centers, 用 来 记录 当前 各 类 的 中 心 。 其 键 值 是 类 的 编号 ,对 应 的 表 值 是 以 键 值 为 编号 的 
类 的 中 心 。 第 11 行 声明 了 一 个 数组 assignments, 用 来 记录 每 个 样本 所 属 类 的 编号 。 第 
12 一 15 行将 每 一 个 样本 初始 化 成 一 个 类 。 第 16 行 声明 了 一 个 用 作 优 先 队 列 的 数组 H. W 


m m 


始 时 ,总 共 及 个 类 ,从 而 有 |[ ra. 在 第 17~20 行 中 ,将 这 ”] 个 类 对 存 人 初始 优先 


队列 H èH. H 中 的 每 一 个 元 素 是 一 个 类 对 中 的 两 个 类 的 编号 (i,j), 对 应 的 键 值 是 类 CC; 
与 C; 之 间 的 距离 。 
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machine leaming.clustering.1ib.agglomerative clustering 
1 import numpy as np 

2 import heapq 

3 

4 class MgglamerativeClustering: 

5 .Anit — (self, n clusters- 1): 

6 Self.k-n clusters 

bi 

8 def fit transform(self, X): 

9 m, n-X.shape 

10 C, centers- (), () 

Ti assigmments- np.zeros (m) 

12 for id in range m): 

13 d'id]- [id] 

14 centers id]-X id] 

15 assigments id]- id 

16 ;m[] 

17 fori in range m): 

18 for j in range (i+ 1, m): 

19 d- rp.linalg.norm (d i]- X 3], 2) 

20 heapq.heappush (H, (d, Li, 31) 

21 new id-m 

22 while len(C)» self.k: 

23 distance, [ idl, id2]- heapq.hearpop (H) 

24 if idl not in C or id? not in C: 

25 continue 

26 d new id|-d idl]«d ia2] 

27 for i in dnw id]: 

28 assignments i]-new id 

29 del d idi], d id2], oenters idl], centers id2] 
30 new center- sun (X d new id] ])/1en(d new idl) 
m. for id in œnters: 

32 center- centers id] 

33 d-rp.linalg.nom(new center- center, 2) 
34 heapg.heappush(H, (d, Lid, new id])) 

35 centerd new id]- new center 

36 new ide-1 

37 return np.array (list (centers.values ())), assignments 


图 11.10 合并 聚 类 的 优先 队列 算法 
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第 21 行 声明 new_id, 它 是 当前 未 被 使 用 过 的 最 小 的 类 编号 。 第 23 行 取出 优先 队列 H 
的 队 首 类 对 (Ca «Cie ) ,它们 是 当前 类 间距 离 最 小 的 一 对 类 。 在 第 24 行 做 了 一 个 检验 。 如 
果 idl 或 id2 不 属于 C, 则 说 明 Ca 或 Ci 在 此 前 的 循环 中 已 被 合并 了 ,所 以 不 予 考虑 ,直接 转 
入 下 一 轮 循环 。 正 因为 在 每 次 循环 中 都 有 此 检验 ,所 以 在 合并 了 两 个 类 之 后 ,不 必 立即 将 与 
其 相关 的 类 对 从 优先 队列 中 删除 。 如 果 idl 和 id2 都 属于 C, 则 说 明 Ca 和 Ca 都 是 C 中 的 
类 。 在 第 26 行将 它们 合并 ,并 生成 新 的 类 Csewia。 第 27,28 行 更 新 样本 所 属 类 的 编号 。 第 
29 行将 Ca 和 Ca 从 C 中 删除 ,并 将 它们 的 中 心 从 center 中 删除 。 第 30 行 计算 Crew a 的 中 心 
new_center。 第 31 一 34 行将 Csew 与 C 中 其 他 各 类 构成 的 类 对 插入 优先 队列 及 中 。 第 35 行将 
new. center 加 入 哈 希 表 centers 中 。 第 36 行将 new id 的 值 增 1 ,为 下 一 轮 循环 做 准备 。 

如 此 和 迭代 循环 ,直至 C 中 只 剩 下 A 个 类 。 算 法 最 后 输出 centers 中 的 个 中 心 。 由 于 
centers 是 一 个 哈 希 表 , 所 以 ,第 37 只 输出 centers. valuesO ,而 省 略 了 其 键 值 。 

例 11.2 图 11.11 中 的 数据 样本 由 3 部 分 组 成 。 第 一 部 分 是 以 (0,0) 为 圆心 ,以 1 为 半 
径 的 圆 内 的 100 个 均匀 采样 (B,)。 第 二 部 分 是 以 (0,2) 为 圆心 ,以 1 为 半径 的 圆 内 的 100 个 
均匀 采样 (B,)。 第 三 部 分 是 以 (5,1) 为 圆心 ,以 0. 5 为 半径 的 圆 内 的 10 个 均匀 采样 (Bs ) 。 
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11.11 8l 11.2 的 数据 样本 分 布 


图 11. 12 中 的 程序 ,分 别 采 用 & 均值 聚 类 算法 和 合并 聚 类 算法 将 图 11. 11 中 的 数据 样 
本 聚 为 两 类 。 在 图 11.12 中 ,第 5—13 行 的 generate_ball 函数 生成 以 x 为 圆心 ,以 radius 为 
半径 的 圆 中 的 m 个 均匀 分 布 的 采样 。 生 成 采样 的 方式 采用 极 坐 标 形式 , 即 以 到 圆心 的 距离 
r 和 与 横 轴 的 夹 角 0 来 表示 圆 中 的 一 个 点 (r，sing,r。cosg)。 第 6 行 在 区 间 [0， radius] 中 
随机 生成 m 个 到 圆心 的 距离 r+。 第 8 行 在 [0,2x) 中 随机 生成 m 个 夹 角 9。 第 9 一 12 行 按照 
极 坐 标 形式 生成 圆 内 的 m 个 均匀 分 布 的 采样 。 

第 15—18 行 调用 generate ball 函数 生成 B, B: 和 B, , 共 3 个 圆 形 数据 样本 。 第 20、21 
行 调用 图 11. 2 中 的 & 均值 算法 计算 两 个 中 心 。 第 22、23 行 调用 图 11. 10 中 的 合并 聚 类 算 
法 计算 两 个 中 心 。 
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import numpy as np 
import machine learning.lib.kmeans as km 
import machine learning.clustering.lib.agglamerative clustering as ac 


def generate ball(x, radius, m): 
r= radius * np.randm. rand (m) 
pi-3.14 
theta-2* pi * np.random.rand (m) 
B -np.zeros ( (m,2)) 


10 for i in range (m): 


1 E i][ 0] x 0] [i] * no.cos (theta 1]) 


12 & il[ 1] x 1] xL 1] * no.sin theta i]) 


3 retum B 


15 Bl-generate ball([0,0], 1, 100) 
16 B2-generate ball( 0,2], 1, 100) 
17 B3-generate ball([ 5,1], 0.5, 10) 
18 X -rp.concatenate((Bl, E2, B3), axis- 0) 


20 Kmeans- km.KMeans (n clusters =2) 

21 print("k means centers: ()".format (kmeans.fit transform(X))) 

22 agg-ac.AgglamerativeClustering(n clusters- 2) 

23 print("agglamerative centers: ()".formet (agg.fit transform(X))) 


El 11.12. 例 11.2 中 数据 样本 的 聚 类 分 析 程 序 


图 11.13 是 图 11.12 中 程序 运行 结果 的 直观 展示 。 在 图 11. 13 中 ,用 友 表 示 算 法 选 出 


的 类 


P 心 。 图 11.13(a) 展 示 出 & 均值 算 法 选 出 的 两 个 类 的 中 心 点 位 置 。 图 11. 13(b) 
出 合并 聚 类 算法 选 出 的 两 个 类 的 中 心 点 位 置 。 对 比 两 种 算法 的 计算 结果 可 以 看 出 , 


展示 
的 值 


算法 的 出 发 点 是 优化 样本 到 中 心 的 距离 总 和 。 因 此 , 它 致力 于 区 分 样本 数 较 多 的 Bl 和 B» 
这 两 部 分 。 这 是 因为 B, 和 B. 是 影响 样本 到 中 心 距离 总 和 的 主要 部 分 ;而 D. 部 分 的 样本 数 
较 少 ,不 足以 对 距离 总 和 造成 实质 性 影响 。 合 并 聚 类 算法 的 出 发 点 则 是 最 大 化 两 个 中 心 之 
间 的 距离 ,使 得 两 类 被 尽 可 能 地 区 分 开 。 所 以 , 它 选 择 将 B, 和 B. 聚 成 一 类 ,而 将 与 B; 和 
B: 较 远 的 B, 聚 成 了 另 一 类 。 

在 一 般 情 况 下 ,这 两 种 聚 类 方法 都 可 以 应 用 于 数据 样本 的 聚 类 。 但 是 , 当 数据 样本 中 存 
在 异常 数据 时 ,如 果 不 希 望 小 部 分 异常 数据 影响 聚 类 结果 , 则 可 以 采用 均值 算法 。 如 果 聚 
类 的 目的 是 为 了 发 现 异常 值 , 则 采用 合并 聚 类 算法 可 能 更 合适 。 
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(a) 
图 11.13 两 种 聚 类 算法 对 例 11.2 的 数据 的 聚 类 结果 


3 DBSCAN 算法 


DBSCAN 算法 的 英文 全 称 为 Density Based Spatial Clustering of Applications with 
Noise。 顾 名 思 义 ,DBSCAN 是 基于 密度 的 概念 对 数据 样本 进行 聚 类 的 算法 。 
DBSCAN 的 算法 思想 类 似 于 图 算法 中 计算 连通 分 支 的 算法 。 简 单 来 说 ,算法 首先 从 任 
意 一 个 样本 点 开始 向 外 扩充 出 一 个 类 。 扩 充 的 方法 类 似 于 广度 优先 搜索 。 算 法 不 断 地 将 类 
中 样本 的 s 邻 域 加 入 到 类 中 ,直至 没有 新 的 样本 可 以 加 入 其 中 为 止 。 一 个 样本 的 s 邻 域 定义 


为 与 该 样本 距离 不 超过 e 的 样本 的 集合 。 


e 的 取 值 由 算法 设计 者 指定 。 这 相 


就 生成 了 第 一 


个 类 。 然 后 ,算法 再 任 选 一 个 不 属于 第 一 个 类 的 样本 点 ,重复 上 述 过 程 ,生成 第 二 个 类 。 如 
此 重复 ,直到 所 有 的 样本 都 被 归 类 完毕 为 止 。 图 11.14 是 DBSCAN 算法 通过 邻 域 扩充 生成 


一 个 类 的 过 程 示意 图 。 
" [ ****2 "m 
51. ES wo 5. Me bel 
á NM Se 初始 点 4| SN MU 
MES GR. | ALIM MT 
3 34 
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图 11.14 DBSCAN 算法 生成 一 个 类 的 过 程 
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(c) (d) 
图 11.14 (2D 


以 上 只 是 对 算法 的 粗略 描述 。 实 际 上 ,DBSCAN 算法 还 有 一 些 细 节 需 要 考虑 。 当 一 个 
样本 的 es 邻 域 中 含有 多 于 指定 数目 的 样本 时 ,将 该 邻 域 称 作 一 个 稠密 邻 域 。DBSCAN 算法 
生成 类 时 ,只 将 稠密 邻 域 中 的 样本 加 入 类 中 ,而 忽略 非 稠密 邻 域 中 的 样本 ,这 是 因为 非 稠密 
邻 域 中 的 样本 可 能 是 数据 噪音 。 

图 11.15 是 DBSCAN 算法 的 描述 。 算 法 需要 两 个 参数 : 搜索 邻 域 的 半径 s 和 稠密 邻 域 
的 样本 数 下 限 min_sample。 只 有 当 一 个 邻 域 中 的 样本 数 多 于 min_sample 时 , 才 将 该 邻 域 
当 作 稠密 邻 域 。 搜 索 邻 域 的 半径 e 和 样本 数 下 限 是 由 算法 设计 者 根据 实际 问题 和 经 验 确 
定 的 。 


DBSCAN 算法 
for i=1,2,=+,m; assignments (i)=0 
id=1 
for i—1.2,-.m: 
if assignments (i) —0 and | N (x? ,e) | >min sample: 
GrowClusterCi id. assignments) 
id-—id-4-1 


return assignments 


图 11.15. DBSCAN 算法 描述 


给 定 m 个 样本 x ax? eux ER" 作 为 输入 ,算法 用 数组 assignments 来 记录 每 个 样 
本 所 属 类 的 编号 。 数 组 assignments 被 初始 化 为 全 0 数组 。 如 果 一 个 样本 i 对 应 的 
assignments (i) 二 0, 则 说 明 该 样本 尚未 归 入 任何 一 个 类 。 合 法 的 类 编号 值 id 从 1 开始 。 随 
后 ,算法 开始 通过 循环 逐一 扫描 样本 x ,x2 ,…,x” 。 当 扫描 到 一 个 未 被 归 类 的 样本 x 
时 ,算法 判断 x HY e 邻 域 是 否 为 稠密 邻 域 。 如 果 它 是 稠密 邻 域 , 则 从 x? 开始 调用 图 11. 16 
中 的 GrowCluster 函数 ,生成 一 个 以 当前 id 值 为 编号 的 类 。 同 时 将 id 值 增 1 ,为 生成 下 一 个 
类 做 准备 。 

图 11. 16 中 的 GrowCluster 函数 是 类 的 生成 算法 。 首 先 ,将 x” 归 入 以 id 为 编号 的 类 
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中 。 然 后 ,算法 用 一 个 先进 先 出 的 队列 Q 来 扩充 这 个 类 。 先 将 所 有 x? 的 s BRN Ga ,e) 
中 的 样本 放 入 Q 中 。 接 着 ,只 要 队列 Q 非 空 ,就 让 队 首 元 素 7 出 队 。 如 果 样 本 x 尚未 被 归 
类 , 则 将 其 归 入 当前 类 。 此 时 ,如 果 x 的 e 邻 域 N (x^? ,se) 是 稠密 的 , 则 将 N (x? ,e) 中 的 样 
本 全 都 加 入 队列 Q 中 。 这 个 循环 持续 至 队列 Q 已 清空 。 此 时 ,已 经 没有 可 选择 的 新 样本 可 
以 加 入 类 中 了 。 至 此 ,算法 成 功 地 生成 了 一 个 以 id 为 编号 的 类 。 


GrowCluster(i,id,assignments) 
assignments (1)<id 
Q—N(x? se) 
while| Q| >0: 
j=Q. popO 
if assignments ( j ) —0: 
assignments ( j ) - id 
if | N (x? se) | 7 min sample: 
Q. push N(x .e)) 


return 


图 11.16 类 的 生成 算法 描述 


从 图 11. 15 描述 的 算法 中 可 以 看 到 ,DBSCAN 算法 对 数据 样本 聚 类 时 ,不 需要 预先 指 
定 聚 类 的 类 别 数 ,算法 会 自动 地 根据 样本 分 布 的 密度 将 数据 聚 类 。 

图 11.17 中 的 DBSCAN 类 是 图 11. 15 和 图 11. 16 中 算法 的 具体 实现 。 在 图 11. 17 中 ， 
第 4 一 6 行 的 构造 函数 指定 算法 的 参数 e 和 min_sample。 第 27 一 37 行 的 fit_transform 函数 
是 算法 的 主体 部 分 。 第 28 行 声 明 并 初始 化 assignments 数组 为 全 0 数组 。 第 29 行将 类 的 
初始 编号 id 取 成 1。 第 30 一 36 行 实现 图 11. 15 中 的 循环 。 如 果 扫 描 到 一 个 尚未 归 类 的 样 
本 x, 并且 x” Hy e 邻 域 是 稠密 的 , 则 从 x 开始 ,以 邻 域 扩充 的 方式 生成 一 个 以 id 为 编号 
的 类 。 其 中 ,第 33 行 调用 第 8 一 12 行 实现 的 get. neighbors 函数 计算 x? B e 邻 域 ,第 35 行 
调用 第 14—25 行 实现 的 grow. cluster 函数 生成 一 个 类 。 

在 grow. cluster 函数 中 ,第 15 行将 x? HAN id 为 编号 的 类 中 。 第 16 行将 xÀ H e g 
域 放 入 队列 Q 中 。 第 17 行 中 的 上 是 队 首 元 素 在 Q 中 的 下 标 。 只 要 :的 值 还 没有 超出 Q 的 
长 度 , 则 队列 非 空 。 此 时 ,算法 让 队 首 元 素 j 出 队 。 这 里 的 “出 队 ”, 是 通过 在 第 20 行将 队 首 
元 素 下 标 增 1 来 实现 的 。 在 第 21 行 ,判断 x 是 否 尚未 归 类 。 如 果 是 , 则 在 第 22 行将 其 归 
入 当前 类 ,并 且 在 第 24 行 中 判断 x? BS e 邻 域 N (x? ,e) 是 否 稠密 。 如 果 是 , 则 在 第 25 行将 
N (x? ,e) 中 的 样本 全 都 加 入 队列 Q 中 。 


def init _(self, eps=0.5, min saple=5): 


图 11.17 DBSCAN 算法 
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5 self.eps= eps 

6 self.min sample-min sample 

7 

8 def get neigrbors (self X, i): 

9 me len(X) 

10 distances-[ np.linalg.norm(d i]-X 3], 2) for j in range m)] 
nu neighbors i-[j for j in rang (m) if distanced j]« self.eps] 
12 retum neighbors i 

13 

14 def grow cluster(self, X, i, neighbors i, id): 

15 self.assigmentd i]- id 

16 Q-neighbors i 

17 t-0 

18 while t< len (Q) : 

19 jdt] 

20 tt=1 

21 if self.assignmentsd jj== 0: 

22 self.assignments[ j]- id 

23 neighbors j= self.get neighbors (X, j) 
24 if len(neighbors j)» self.min sample: 
25 Qr-neighbors j 

26 

27 œf fit _transfom(self, X): 

28 self.assignments- np.zeros (len (X) ) 

29 id-1 

30 for i in range (len (2)): 

31 if self.assigrments| i] !=0: 

32 continue 

33 neighbors i= self.get neighbors (X, i) 

34 if len(neighbors i)» self.min sample: 

35 self.grow cluster(X, i, neighbors i, id) 
36 id+=1 
37 return self.assignments 


图 11.17 (8D 


例 11.3 同心 圆 数据 聚 类 

Sklearn 数据 库 中 提供 了 同心 圆 数 据 集 。 在 同心 圆 数据 集中 ,每 一 条 数据 表示 平面 上 的 
一 个 点 。 数 据 集中 共 含 有 两 类 数据 ,一 类 数据 的 分 布 形成 平面 上 的 一 个 大 圆 , 另 一 类 数据 的 
分 布 形成 平面 上 的 一 个 小 圆 , 大 圆 和 小 圆 同 心 ,如 图 11. 18 所 示 。 

在 图 11. 19 的 程序 中 ,分 别 用 DBSCAN 算法 和 & 均值 算法 对 图 11. 18 中 的 400 个 同心 
圆 数据 采 样 进行 聚 类 。 在 第 16 行 与 第 18 行 分 别 以 图 形 的 方式 输出 两 种 算法 的 最 后 聚 类 结 
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图 11.18 同心 圆 数据 集中 的 400 个 数据 样本 


果 , 并 用 不 同 的 颜色 表示 不 同 的 类 ,以 直观 展示 两 种 算法 的 聚 类 效果 。 


1 import numpy as np 

2 import matplotlib.pyplot as plt 

3 frm sklearn.datasets import make circles 

4  franmachine learning.clustering.lib.dbscan import DBSCAN 
5  franmachine learning.clustering.lib.kmeans import Keans 
6 

7 

8 

9 


np.randam.seed (0) 
X, y-make circles(n samples- 400, factor- .3, noise- .05) 


10 dbscan- DBSCAN (eps —0.5, min sample =5) 

11 do assignments= dbscan.fit transform(X) 

12 Nkmeans- Keans (n clusters- 2) 

13 km centers, km assignments = kmeans.fit transform(X) 


15 pit.figure(1) 

16 plt.scatter(d :, 0], X :,1], c- do assignments) 
17 plt.figure(2) 

18 plt.scatter(d :, 0], X :,1], c- km assignments) 
19 pit.show() 


图 11.19 用 DBSCAN 算法 和 k 均值 算法 完成 同心 圆 数据 聚 类 的 程序 


运行 图 11. 19 中 的 算法 ,输出 DBSCAN 算法 和 A 均值 算法 的 最 后 聚 类 结果 ,如 图 11. 20 
所 示 。 图 11. 20(a) 是 DBSCAN 算法 的 聚 类 结果 ,图 11. 20(b) 是 & 均 值 算法 的 聚 类 结果 。 
从 图 中 可 以 看 到 ,DBSCAN 算法 成 功 地 区 分 出 了 大 圆 和 小 圆 两 部 分 数据 样本 。 但 是 & 均值 
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算法 却 无 法 区 分 出 大 圆 和 小 圆 的 数据 样本 。 
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图 11.20 两 种 算法 的 聚 类 结果 


这 个 例子 说 明 , 当 每 个 类 中 的 数据 都 不 是 凸 集 时 ,均值 算法 不 能 保证 有 合理 的 聚 类 结 
果 。 而 DBSCAN 算法 则 不 同 , 它 可 以 处 理 任 何不 规则 的 数据 分 布 ,这 是 DBSCAN 算法 的 一 
个 优势 。 除 此 之 外 ,DBSCAN 算法 不 需要 预先 指定 聚 类 的 类 别 数 。 它 可 以 根据 数据 分 布 的 
密度 自行 决定 ,这 是 DBSCAN 算法 的 另 一 个 优势 。 

DBSCAN 算法 主要 有 两 点 不 足 之 处 。 第 一 , 它 要 求 各 类 的 密度 接近 ,否则 不 易 选 取 合 
适 的 s 参 数 的 值 。 第 二 , 当 数据 的 维度 很 高 时 ,一 个 数据 点 的 s 邻 域 可 能 十 分 稀 朴 ,此 时 ， 
DBSCAN 算法 可 能 无 法 获得 有 效 的 聚 类 。 


小 结 


聚 类 算法 是 除 降 维 算法 之 外 的 另 一 类 重要 的 无 监督 学 习 算法 。 本 章 着 重 介绍 了 3 283 
流 的 聚 类 算法 : 基于 划分 的 聚 类 ,基于 层级 的 聚 类 以 及 基于 密度 的 聚 类 。 

& 均 值 算 法 是 基于 划分 的 聚 类 算法 的 代表 。 通 过 选取 A 个 中 心 ,并 将 样本 分 配 到 与 其 最 
近 的 中 心 ,算法 将 样本 聚 成 上 个 类 。 它 选取 中 心 的 原则 是 最 小 化 全 体 样 本 到 最 近 中 心 的 距 
离 总 和 和。k 均值 算法 通过 不 断 执行 样本 归 类 与 中 心 调整 来 近似 地 达到 这 一 目的 。& 均 值 算 
法 的 优势 是 收敛 速度 快 。 它 的 不 足 之 处 是 对 含有 非 凸 的 类 的 数据 聚 类 效果 不 佳 。 

合并 聚 类 是 基于 层级 的 聚 类 算法 的 代表 。 它 十 分 类 似 于 图 算法 中 计算 最 小 支撑 树 的 
Kruskal 算法 。 通 过 不 断 地 合并 距离 最 近 的 类 ,合并 聚 类 算法 将 数据 聚 成 & 个 类 。 合 并 聚 类 
算法 的 优势 是 能 够 对 小 部 分 异常 数据 进行 聚 类 。 其 不 足 之 处 是 算法 时 间 复 杂 度 比 其 他 聚 类 
算法 高 。 

DBSCAN 算法 是 基于 密度 的 聚 类 算法 的 代表 。 它 十 分 类 似 于 图 算法 中 计算 连通 分 支 
的 广度 优先 搜索 算法 。DBSCAN 算法 每 次 选取 一 个 样本 点 来 向 外 扩充 出 一 个 类 。 扩 充 的 
方式 是 : 不 断 地 将 类 中 样本 的 。 邻 域 加 入 类 中 ,直至 没有 新 的 样本 可 以 被 加 入 为 止 。 
DBSCAN 算法 的 优势 是 无 须 预 先 指定 聚 类 的 类 数 &。 而 它 的 不 足 之 处 是 要 求 各 类 密度 均 
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^]. EFE F6 ERE R rh I RKA RA IC fü SE 2S EIAS 
从 以 上 描述 可 以 看 出 ,每 个 算法 都 有 其 长 处 与 短处 。 在 实际 的 聚 类 应 用 
体 情 况 选择 合适 的 聚 类 算法 。 


T 


,应 当 根据 具 


习题 


11.1 给 定 一 组 平面 上 的 点 : 

4" —(11); = = ABD): x'"-—ig—14 
考察 平面 上 的 两 个 中 心 : c= 二 (0,0),c? 二 (1,0)。 请 用 均值 算法 将 x 中 ,x 中，,… ,x 号 分 
别 归 入 距离 最 近 的 中 心 , 并 计算 出 新 中 心 的 位 置 。 

11.2 考察 9 条 一 维 数据 : x == 产 ,i 二 1,2,…,9。 用 合并 聚 类 算法 将 这 组 数据 聚 成 


3 类 。 
11.3 分 别 用 DBSCAN 算法 和 合并 聚 类 算法 对 例 11. 1 中 的 墨 渍 数据 集 进行 聚 类 。 
11.4 请 用 合并 聚 类 算法 ,对 例 11. 3 中 的 同心 圆 数 据 集 进 行 聚 类 。 

11.5 分 别 用 & 均 值 算法 、 合 并 聚 类 算法 与 DBSCAN 算法 对 交尾 花 数 据 集 进 行 聚 类 ， 
并 检验 聚 类 的 结果 是 否 与 数据 的 标签 一 致 。 

11.6 小 批量 均值 算法 。 

上 均值 算法 的 计算 时 间 复 杂 度 为 OC(mnkN)。 其 中 ,m 是 训练 数据 的 个 数 。 由 此 可 见 ， 
M m 较 大 时 ,& 均值 算法 需要 较 长 的 运行 时 间 。 因 此 ,许多 实际 问题 都 采用 均值 算法 的 一 
个 变形 一 一 小 批量 均值 算法 。 

小 批量 & 均 值 算法 分 N 轮 循 环 进行 。 在 每 一 轮 循环 中 ,都 进行 样本 归 类 和 中 心 调整 两 
步 。 在 循环 开始 前 ,随机 选取 & 个 中 心 。 在 每 一 轮 循环 中 ,算法 读 取 4 条 训练 数据 采样 。 其 
中 ,是 算法 参数 ,由 算法 设计 者 指定 。 在 样本 归 类 这 一 步 中 ,将 这 4 条 数据 中 的 每 一 条 数据 
归 入 距 其 最 近 的 中 心 。 在 中 心 调整 这 一 步 中 ,将 每 个 中 心 调整 为 两 部 分 点 的 平均 值 ,第 一 部 
分 是 当前 5 条 数据 中 归 入 该 中 心 的 点 ,第 二 部 分 是 所 有 在 以 往 的 循环 中 被 归 入 该 中 心 的 点 。 
在 N 轮 循环 之 后 ,算法 返回 得 到 的 个 中 心 。 

CD. 分 析 小 批量 均值 算法 的 时 间 复 杂 度 。 

(2) 实现 小 批量 8 均值 算法 。 

G) 分 别 用 均值 算法 和 小 批量 & 均值 算法 对 手写 数字 识别 数据 集 进 行 聚 类 。 检 验 聚 
类 的 结果 是 否 与 数据 的 标签 一 致 ,并 比较 两 个 算法 的 运行 时 间 。 

11.7 均值 漂移 算法 。 

均值 漂移 算法 是 一 个 基于 划分 的 聚 类 算法 。 给 定 一 组 数据 ,均值 漂移 算法 通过 迭代 来 
调整 每 个 数据 点 的 位 置 ,使 得 每 一 点 都 朝 着 该 点 邻 域内 密度 较 高 的 区 域 漂移 ,以 完成 聚 类 。 
图 11. 21 是 均值 漂移 算法 的 聚 类 过 程 演示 。 在 图 11. 21 中 ,通过 将 每 个 点 朝 密度 较 高 的 区 
域 漂移 ,所 有 的 点 逐渐 聚 成 了 3 类 。 

以 下 是 均值 漂移 算法 的 具体 描述 。 给 定 冯 条 数据 x OD ax pex ECR, A N 轮 
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图 11.20. 均值 漂移 算法 的 聚 类 过 程 


循环 进行 。 在 每 一 轮 的 循环 中 ,算法 首先 为 每 一 个 点 x” ,计算 它 的 e 邻 域 

M= plat =at h sels;sm)js l&i«m 

其 中 ,e 是 一 个 算法 参数 ,由 算法 设计 者 指定 。 然 后 ,对 每 个 Sm. EE 
MK (x? ax E x? 


[7 jeN; 


EU ES NERA UN NES 
MK (x9 x9 3 
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1 一 =12 


K(r,)—e 9 , x,az€R 
函数 中 的 o 是 一 个 算法 参数 。 最 后 ,对 每 个 1<i<m ,调整 x 的 位 置 至 z2 LB x 2, 
(1) 实现 上 述 均 值 漂移 算法 。 
(2) 图 11. 22 中 的 程序 用 于 生成 图 11. 21(a) 中 的 数据 采样 。 请 基于 图 11. 22 中 的 程 
序 , 采 用 (1) 中 实现 的 均值 漂移 算法 ,调试 合适 的 算法 参数 e 和 vc ,完成 数据 聚 类 。 


1 framskleam.datasets import make bldos 
2 X, pmke bldos(n samples- 100, centers- 3, randim state-0, cluster std- 0.4) 


图 11.22 生成 图 11.21(a) 中 的 数据 采样 的 程序 


4 Dx 强化 学 习 


强化 学 习 是 现代 人 工 智 能 的 重要 研究 课题 。 近 年 来 ,强化 学 习 算法 在 理论 和 实践 创新 
中 取得 了 一 个 又 一 个 重大 突破 。AlphaGo 智能 博弈 系统 战胜 人 类 围棋 世界 冠军 ,就 是 强化 
学 习 与 深度 学 习 相 结合 所 取得 的 代表 性 成 就 。 除 此 之 外 ,强化 学 习 也 是 机 器 人 自动 控制 .无 
人 驾驶 汽车 .人 机 交互 等 智能 研究 与 应 用 领域 的 重要 学 术 基 础 。 可 以 毫 不 夸张 地 说 ,强化 学 
习 加 上 深度 学 习 是 未 来 人 工 智能 发 展 的 一 个 必然 趋势 。 

在 自然 界 中 ,“ 趋 利 避 害 ” 是 任何 一 种 智能 生物 的 本 能 。 强 化 学 习 的 灵感 正 是 来 自 对 这 
一 自然 本 能 的 模拟 。 一 个 强化 学 习 算 法 在 其 学 习 的 过 程 中 不 断根 据 环境 状态 采取 行动 ,并 
根据 行动 结果 是 “ 利 ? 还 是 “ 害 ? 来 相应 地 提高 或 降低 将 来 再 次 采取 该 行动 的 概率 。 以 博弈 系 
统 为 例 , 如 果 在 对 弈 过 程 中 走出 一 记 妙 手 , 则 强化 学 习 算 法 能 够 记 住 当前 的 盘面 ,从 而 在 将 
来 遇 到 类 似 盘面 时 能 够 “ 故 技 重 施 ” ;然而 ,如 果 遇 到 一 招 不 慎 而 导致 满 盘 皆 输 的 情况 ,强化 
^6 2] EU UL hE BE SERI. t OREA BE" SCHREIBE ICT o 

那么 ,强化 学 习 究 竟 是 如 何 运作 的 呢 ? 本 章 将 通过 介绍 强化 学 习 领 域 中 的 基本 算法 来 
揭 开 其 神秘 面纱 的 一 角 。 强 化 学 习 任 务 可 以 分 为 两 大 类 。 一 类 任务 是 算法 可 以 完全 掌握 环 
境 信息 。 动 态 规划 型 算法 就 是 用 于 求解 此 类 任务 的 典型 算法 。 另 一 类 任务 是 算法 必须 自发 
探索 环境 来 获取 所 需 信息 。 时 序 差分 型 算法 与 策略 梯度 型 算法 是 用 于 求解 此 类 任务 的 两 种 
代表 性 算法 。 

在 本 章 中 ,除了 实现 上 述 各 类 算法 ,还 将 在 OpenAI 虚拟 环境 中 运行 这 些 算法 。 例 如 ， 
运用 深度 Q 神经 网 络 来 控制 一 辆 小 车 ,使 其 能 平衡 在 车 上 竖 直 放置 的 小 木 棒 。 通 过 这 样 的 
实践 ,能 够 对 强化 学 习 算法 有 更 深 的 体会 。 
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12.1 强化 学 习 基 本 概念 


12.1.1 马尔 可 夫 环境 模型 


在 一 个 强化 学 习 的 应 用 场合 中 ,强化 学 习 算法 控制 一 个 智能 玩家 在 给 定 的 环境 中 通过 
一 系列 行动 来 完成 指定 任务 。 例 如 ,在 博弈 系统 中 ,智能 玩家 就 是 计算 机 软件 控制 的 虚拟 棋 
手 ,环境 是 棋盘 上 的 盘面 局 势 , 其 任务 是 赢 棋 ;在 无 人 驾驶 汽车 系统 中 ,智能 玩家 就 是 控制 车 
辆 行驶 的 虚拟 驾驶 员 ,环境 是 无 人 驾驶 汽车 的 路 况 , 其 任务 是 从 出 发 点 开始 安全 操纵 无 人 驾 
驶 汽车 到 达 指 定 目 的 地 。 强 化 学 习 算法 的 任务 是 根据 环境 的 状态 制定 智能 玩家 的 行动 


策略 。 


为 了 设计 强化 学 习 算法 ,必须 将 环境 ,状态 ,行动 等 概念 抽象 成 合适 的 数学 模型 。 马 尔 
可 夫 模 型 是 一 个 最 常用 的 强化 学 习 环 境 模型 。 一 个 马尔 可 夫 模 型 由 以 下 4 个 要 素 组 成 : 


状态 集 S。S 中 的 每 一 个 元 素 * 表示 一 个 环境 状态 。 例 如 ,在 围棋 博弈 系统 中 ,每 个 
可 能 的 盘面 都 对 应 一 个 状态 。 尽 管 在 现实 环境 中 可 能 有 无 限 种 状态 ,但 总 是 可 以 通 
过 近似 或 者 离散 化 等 方法 ,将 状态 转化 为 有 限 集 。 因 此 ,在 本 章 中 总 是 假设 状态 集 
S 是 有 限 集 。 
行动 集 A。A 中 的 每 一 个 元 素 a 都 对 应 一 个 智能 玩家 的 行动 。 例 如 ,在 围棋 博弈 系 
统 中 ,在 棋盘 的 任 一 位 置 落 子 ,都 对 应 一 个 行动 。 与 状态 集 类 似 ,总 可 以 假设 行动 集 
A 是 有 限 集 。 
转移 函数 T. 行动 可 以 改变 状态 。 转 移 函 数 工 是 一 个 从 SXA 映射 到 S 的 函数 。 
对 任意 s€ES 和 aE€EA, 用 T(s,a) 表 示 在 状态 s 发 出 行动 a 将 达到 的 新 状态 。 例 如 ， 
在 当前 围棋 盘面 的 某 一 处 落 子 ,将 产生 一 个 新 的 盘面 。 
奖励 函数 尺 。 环 境 对 每 个 行动 给 予 一 个 反馈 。 反 馈 函 数 尺 是 一 个 从 SXA 映射 到 实 
数 及 的 函数 。 对 任意 ES Fla € AJ R(s,a) 表 示 在 状态 s 发 出 行动 a 将 获得 的 奖 
励 值 。R(s,a) 的 值 有 可 能 是 负数 ,此 时 的 奖励 实际 上 就 是 惩罚 。 例 如 ,在 围棋 博弈 
系统 中 ,如 果 走 出 一 步 好 棋 , 提 掉 了 对 方 的 大 片 的 棋子 , 则 获得 一 个 正 的 奖励 ;反之 ， 
如 果 被 对 方 提 子 , 则 获得 一 个 负 的 奖励 。 奖 励 函 数 的 设计 不 属于 强化 学 习 算 法 的 任 
nr 务 范畴 , 它 是 由 环境 提供 的 。 
根据 以 上 4 个 要 素 , 可 以 将 一 个 马尔 可 夫 模 型 描述 为 一 
个 有 向 图 ,如 图 12. 1 所 示 。 在 图 12. 1 中 ,在 状态 ;下 发 出 
行动 a ,获得 了 奖励 -二 R(s,a), 并 将 状态 改变 为 ;二 TT(s， 
a)。 像 图 12. 1 这 样 的 有 向 图 就 称 为 状态 图 。 
并 非 每 一 个 行动 都 会 改变 状态 。 例 如 ,在 图 12. 1 中 ,在 
状态 ;下 发 出 行动 gw 后 的 状态 依然 是 , 即 ,一 个 行动 也 可 


图 12.1 马尔 可 夫 模型 的 状态 图 以 不 改变 状态 。 
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在 一 个 强化 学 习 任务 中 ,状态 集 S 中 通常 存在 一 个 表示 终止 的 环境 状态 , 即 终止 状态 。 
例如 ,在 围棋 博弈 系统 中 ,以 一 方 获胜 为 终止 状态 。 在 无 人 驾驶 汽车 系统 中 ,以 无 人 驾驶 汽 
车 到 达 目 的 地 为 终止 状态 :在 机 器 人 控制 系统 中 ,以 机 器 人 完成 指定 任务 为 终止 状态 。 马 尔 
可 夫 环 境 模型 的 终止 状态 是 由 一 个 不 被 任何 行动 改变 的 状态 来 表示 的 。 例 如 ,图 12. 2 中 的 
状态 s 就 是 一 个 终止 状态 。 在 本 章 中 ,总 假设 状态 集 S 中 一 定 含 有 一 个 终止 状态 。 

在 马尔 可 夫 环 境 模型 中 ,如 果 从 一 个 状态 s 开始 ,连续 地 发 出 个 行动 a1,as，…,a, ,就 
得 到 一 条 长 度 为 n 的 状态 路 径 , 如 图 12. 3 所 示 。 在 图 12. 3 P. WREX so =s, WET A E 
中 各 状态 的 关系 统一 表示 为 % T (sii ai) iri =R (si15a;) 一 1,2… n. 


a,0 


Tis, a)=s, VaeA 
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图 12.2 终止 状态 示意 图 图 12.3 KEJ n 的 状态 路 径 


取 定 一 个 常数 折扣 值 0 二 7Y<1, 定 义 状态 s AFITA ai sas as 的 折扣 奖励 为 
Gai sag san) = r1 Yra Yrs d t M Y", (12. 
即 ,折扣 奖励 是 * 经 n 步行 动 之 后 带 来 的 奖励 值 的 加 权 和 。 由 于 距离 状态 s 越 远 的 行动 对 
s 的 影响 越 弱 , 因 而 相应 的 奖励 值 的 权重 就 越 低 。 从 * 开始 的 n 次 连续 行动 a1 ,as，… ,a 得 
到 的 折扣 奖励 值 G(s,a ,as，… ,a,) 越 高 ,对 这 n 次 连续 行动 的 评价 就 越 高 。 
对 任意 正 整 数 n, 用 G,(s) 表 示 从 状态 s 开始 全 部 可 能 的 n 次 连续 行动 所 对 应 的 折扣 奖 
励 值 的 最 大 值 , 即 


G,G) = max G (ssa sa; i san) (12.2) 
因此 ,从 状态 s 开始 ,进行 不 超过 n 步 的 连续 行动 之 后 ,可 能 获得 的 最 大 折扣 奖励 为 
V,(s) = max Gi(s) (12. 3) 


V,(s) 的 意义 在 于 , 它 能 衡量 状态 s 的 价值 。V,(s) 的 值 越 大 ,对 达到 状态 s 的 评价 就 越 高 。 
由 V, GO RE SCRI AV, GO SEV GO. 29 Y Bii V, (s) 的 值 随 着 的 增 大 而 趋 于 无 
穷 , 需 要 对 状态 图 中 的 圈 形 路 径 做 出 折扣 奖励 的 假设 。 在 图 12. 3 H, WRA s, =s, WARE 
路 径 构 成 了 一 个 圈 , 如 图 12.4 所 示 。 

如 果 状 态 图 中 的 状态 路 径 存 在 一 个 折扣 奖励 G Gs. 
ài «dz 7a) 270 的 圈 , 则 可 以 选择 不 断 在 圈 中 循环 行动 
以 增 大 V,(s) 的 值 。 将 这 样 的 圈 称 为 一 个 正 奖励 圈 。 当 
状态 图 中 含有 正 奖 励 圈 时 . 随 着 n 的 增 大 ,V,,(s) 的 值 将 趋 
于 无 穷 。 因 此 ,一 个 合理 的 奖励 函数 不 应 当 造 成 正 奖励 
圈 , 否 则 智能 玩家 可 能 会 为 持续 获取 奖励 值 而 陷入 圈 中 
“无 法 自拔 ”, 从 而 无 法 完成 最 终 的 任务 。 因 此 ,在 本 章 中 ， 
假设 状态 图 中 不 含有 正 奖 励 圈 。 图 12.4 ”形成 一 个 圈 的 状态 路 径 
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538 12.1. 设 环境 中 不 含有 正 奖 励 圈 ,并 且 状态 集 S 是 一 个 含有 终止 状态 的 有 限 集 ， 
则 对 任意 状态 *, 必 定 存 在 一 个 正 整 数 N ,使 得 
Vols) S Vi G) S e S Vn ls) = Vyn (s) = (12.4) 
WEBB. 由 于 环境 中 不 含有 正 奖励 圈 , 所 以 任何 一 组 能 够 获得 最 大 折扣 奖励 的 行动 生成 
的 路 径 都 不 应 当 含有 圈 。 mod 且 状 态 集中 含有 终止 状态 ,所 以 ,一 条 
足够 长 的 不 含有 圈 的 路 径 一 定 会 终止 。 由 此 可 知 , 式 (12.4) 成 立 。 
BRE 12.1. lim VC9) 一 定 存在 且 有 限 . 所 以 ,可 以 定义 
VG) = lim V,G) (12.5) 
V(s) 是 智能 玩家 在 状态 * 处 可 能 取得 的 最 大 折扣 奖励 值 。 将 V(s) 称 为 状态 s 的 环境 V 值 。 
与 V 值 紧密 相关 的 是 Q 值 的 概念 。 对 任意 状态 s 和 行动 a ,定义 Q,(s,a) 为 从 状态 ;发 
出 行动 a 及 随后 不 超过 nn 一 1 步行 动 之 后 ,可 能 获得 的 最 大 折扣 奖励 。 即 
Q,Gs. ʻa) = max Sud G, (a.a »*** sai) (12.6) 
3112.2 设 环境 中 不 含有 正 奖 励 圈 ， 并 且 状 态 集 S 是 一 个 含有 终止 状态 的 有 限 集 ， 
则 对 任意 状态 ; 和 行动 a ,一 定 存在 一 个 正 整数 N ,使 得 


Qolsa) X Qi (ssa) X = «QyG,a) = Qun (ssa) = 7 (12.7) 
引 理 12. 2 的 证 明 与 引 理 12. 1 类 似 。 由 引 理 12. 2 可 定义 
Q(s.a) — lim Q, (s.a) (12.8) 


将 QU. a) FE s 8& T a 的 环境 Q 值 。 
对 任意 状态 s 及 行动 a ,状态 s 的 环境 V 值 和 Q 值 具有 以 下 的 性 质 


Q,CGs«a) 一 RS,a) 十 YXV (TGSa)) (12.9) 

V,G) = maxQ,C.a) (12. 10) 
4€À 

Q(s.a) = R(ssa) d- YVCTG ,a)) (12. 11) 

V(s) = maxQ(s.a) (12. 12) 
a€A 


式 (12.9) 的 意义 十 分 明确 : 状态 s 经 行动 a 转移 至 了 状态 T(s,a), 并 获得 了 奖励 RG. 
a)。 此 后 ,从 T(s,a) 开 始 的 不 超过 一 1 步行 动 可 以 获得 的 最 大 折扣 奖励 为 V,_1(T(s,a))。 
如 果 从 状态 s 开始 计算 最 大 折扣 奖励 , 则 V,_1(T(s,a)) 还 要 青 乘 以 折扣 y。 这 就 是 式 (12. 9)。 
式 (12.10) 的 意义 也 十 分 明确 。 由 于 Q,(s,a) 是 第 一 步 采取 行动 a 及 随后 不 超过 nn 一 1 步行 
动 的 最 大 折扣 奖励 ,所 以 V,(s) 应 当 等 于 所 有 Q,(s,a) 中 的 最 大 值 ,这 就 是 式 (12. 10)。 
式 (12. 11) 和 式 (12. 12) 实 际 上 是 对 式 (12. 9) 和 式 (12. 10) 取 极限 的 结果 。 

强化 学 习 的 目标 是 : 制定 一 种 策略 ,使 得 智能 玩家 在 任意 状态 下 都 能 取得 与 该 状态 的 V 
值 相 接近 的 折扣 奖励 。 


12.1.2 策略 
策略 是 一 个 根据 环境 状态 来 选择 行动 的 规则 。 策 略 可 以 是 确定 性 的 。 确 定性 策略 在 每 
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个 状态 下 只 选择 唯一 的 一 个 行动 。 策 略 也 可 以 是 随机 的 。 随 机 策略 在 每 个 状态 下 可 以 根据 
一 个 概率 分 布 来 随机 选取 一 个 策略 。 在 一 个 马尔 可 夫 环 境 模 型 中 ,策略 是 一 个 映射 +: S 一 
A。x(s) 表 示 策 略 < 在 处 于 状态 时 命令 智能 玩家 采取 的 行动 。 如 果 是 随机 策略 , 则 x(s) 是 
一 个 随机 变量 。 用 x(s,a) 表 示 智 能 玩家 决定 采取 行动 a 的 概率 , 即 ,x(s,a) 二 Pr(x(s) 二 a)。 
对 全 部 行动 的 集合 A, 有 

Darlssa) =1 

acA 

给 定 一 个 策略 x, 设 智能 玩家 处 于 状态 *。 从 状态 s 开始 ,按照 策略 x, 连 续 地 发 出 nn 个 

行动 ,就 得 到 状态 图 中 一 条 长 为 n 的 路 径 , 如 图 12.5 所 示 。 如 果 定 义 so 二 s, 则 可 将 图 中 各 状 
态 的 关系 统一 地 表示 为 s; 二 T(si_i n Gi) Jor: ^R(sia sz Gia))si—1,2,**,n. 


CG -G (Sn) ry 
i 3 - e Sy J) 


E 12.5 策略 x 从 状态 s 发 出 的 n 个 行动 的 状态 图 


由 于 策略 x 可 能 是 随机 策略 ,所 以 ,图 12.5 中 的 i,ro，…,r, 都 是 随机 变量 。 取 定常 数 
折扣 值 oscyscl. H GOKI neret ,ri 的 加 权 和 的 期 望 值 , 即 


G7 (s) Eln - Yr +r +e tyr], i—1d0p.2.- (12. 13) 
则 从 s 开始 , 按 策略 x 执行 不 超过 n 步行 动 后 所 能 获得 的 最 大 折扣 奖励 为 
VEGS) = max G} (s) (12. 14) 


从 式 (12.14) 可 知 , 对 任意 n VE OSV G2. 
引 理 12.3 设 环境 中 不 含有 正 奖励 圈 , 并 且 状 态 集 S 是 一 个 含有 终止 状态 的 有 限 集 ， 
则 对 任意 策略 x, 一定 存 在 一 个 正 整数 N ,使 得 对 任意 状态 sA 


V$G) S Vil) < < Vils) = Vin (s) = (12. 15) 
5| 38 12.3 的 证 明 与 引 理 12. 1 完全 类 似 。 由 引 理 12. 3 可 定义 
V*G) = lim VzG) (12. 16) 


V"(s) 是 策略 x 在 状态 下 可 能 获得 的 最 大 折扣 奖励 。 将 V (s) 称 为 策略 在 状态 处 的 
V f. 
对 任意 状态 * 和 行动 a ,定义 Qi(s,a) 为 经 过 行动 wa 之 后 ,再 按照 策略 x 进行 不 超过 
n —1 步行 动 后 可 能 获得 的 最 大 折扣 奖励 。 
引 理 12.4. 设 环境 中 不 含有 正 奖励 圈 , 并 且 状 态 集 S 是 一 个 含有 终止 状态 的 有 限 集 ， 
则 对 任意 策略 ,一定 存在 一 个 正 整 数 N ,使 得 对 任意 s 及 a, 有 
Qi(sya) S QË Csa) S e < QR lsa) = Qin (ssa) = 7 = Q7 (ssa) (12.17) 
由 引 理 12.4 可 定义 
Q*(.a) = lim QzG.a) (12.18) 


Q"(s,a) 称 为 策略 x 在 s 处 基于 行动 a 的 Q 值 。 
取 定 策略 x, 对 任意 s 和 a ,策略 x 在 状态 处 的 V 值 与 Q 值 具有 以 下 的 性 质 : 


o 
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Q£(s;a) = R(ssa) + Y Vz (T(s;a)) (12. 19) 
Vi(s) = E[QZz(s,uG2)]— PIiaGaoQiG.a) (12. 20) 
acA 
Q*(s,a) = R(sysa) -- Y V"(T(ssa)) (12,:21) 
V*(s) = E[Q* (s,a(s)]— PIiaGa0Q'" G.a) (12.:22) 
aEA 
如 果 是 确定 性 策略 , 则 式 (12. 20) 和 式 (12. 22) 可 以 分 别 简 化 为 
Vils) = Qi(s,x(s)) (12.253) 
VEG = QtssmCs2) (12. 24) 


由 于 V(s) 是 智能 玩家 在 状态 s 处 可 能 取得 的 最 大 折扣 奖励 值 ,而 V*(s) 只 是 策略 x 在 状 
态 s 处 可 能 获得 的 最 大 折扣 奖励 ,由 此 自然 有 
WC Vres €12.:259 
类 似 地 ,可 以 论证 
Q*(Cs.a) xCQG.a) (12. 26) 
上 述 两 个 表达 式 表明 ,环境 V 值 和 环境 Q 值 分 别 是 策略 V 值 和 策略 Q 值 的 上 界 。 如 果 一 个 
策略 的 V 值 与 环境 V 值 相等 , 即 对 任意 状态 *, 都 有 V=(s)=V(s) ,就 称 策略 zx 为 一 个 最 优 
策略 。 
强化 学 习 算 法 的 任务 就 是 计算 最 优 策略 。 强 化 学 习 的 任务 形式 可 以 分 为 两 类 。 第 一 类 
任务 中 ,智能 玩家 完全 掌握 环境 模型 的 信息 ,这 类 任务 就 称 为 有 模型 的 强化 学 习 。 在 有 模型 
的 强化 学 习 中 ,对 任意 状态 s 和 任意 行动 a .算法 能 明确 地 知道 采取 行动 a 之 后 会 转移 到 何 
种 状态 T(s,a) 以 及 获得 多 大 的 奖励 Rs,a)。 由 于 掌握 了 全 部 的 环境 信息 ,所 以 ,可 以 采用 
动态 规划 算法 得 到 最 优 策 略 。 第 二 类 任务 中 ,智能 玩家 没有 环境 的 具体 信息 ,这 类 任务 就 称 
为 免 模型 的 强化 学 习 。 在 免 模型 的 强化 学 习 中 ,在 状态 s 处 ,为 了 获取 某 一 未 尝试 过 的 行动 
a 的 效果 ,智能 玩家 只 能 通过 尝试 该 行动 来 获得 该 行动 所 产生 的 结果 ,从 而 记录 它 所 转移 到 
的 状态 T(s,a) 以 及 获得 的 奖励 值 RC(s,a)。 由 此 可 见 ,与 有 模型 的 强化 学 习 相 比 , 免 模型 的 
强化 学 习 算法 因 其 需要 探索 环境 而 面临 着 更 大 的 挑战 ,但 它 的 应 用 场合 比 有 模型 的 强化 学 
习 算 法 更 加 广泛 。 


12.2 动态 规划 型 算法 


动态 规划 型 算法 的 适用 对 象 是 有 模型 的 强化 学 习 。 在 有 模型 的 强化 学 习 任 务 中 ,任意 
状态 s 及 任意 行动 a 对 应 的 转移 函数 T(s,a) 和 Rs,a) 都 是 已 知 的 。 因 此 ,算法 可 以 在 所 有 
的 行动 开始 之 前 就 预先 算出 最 优 策略 。 

本 节 介 绍 两 个 基于 动态 规划 的 算法 : 第 一 个 是 值 迭 代 算法 ,第 二 个 是 策略 迭代 算 
法 。 它 们 都 是 获得 有 模型 强化 学 习 最 优 策略 的 算法 。 它 们 制定 的 最 优 策略 都 是 确定 性 
策略 。 
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12.2.1 值 迭代 算法 


值 适 代 算法 的 基本 思想 是 : 首先 用 动态 规划 算法 计算 出 环境 V 值 和 Q 值 。 然 后 ,再 根 
据 环境 Q 值 制定 出 最 优 策略 。 

定理 12.5. 在 一 个 无 正 奖励 圈 的 强化 学 习 环 境 中 ,最 优 策略 x 一定 存在 。 它 是 一 个 满 
足 如 下 条 件 的 确定 性 策略 : 对 任意 SC S, 有 


元 (5) 一 argmaxQ(s'a) (12. 27) 
证 明 : 将 式 (12.9) 代 入 式 (12. 100 ,可 以 得 到 以 下 的 递 推 关系 : 
Vus = max{tR(sa) + YVa (Tls,a))} (12. 28) 


由 于 不 做 行动 就 没有 任何 奖励 ,因而 ,对 任意 ,都 有 Vo(s) 王 0。 此 递 推 关 系 又 称 为 Bellman 
等 式 。 
如 果 定 义 如 下 的 策略 mr : 对 任意 状态 ;, 有 
Ta (s) = argmax{R(s,a) 二 光世 argmaxQ, (s.a) 
则 可 以 对 采用 数学 归纳 法 ,得 到 以 下 结论 : 
Vi (s) = V,(s) (12. 29) 
根据 引 理 12. 1 和 引 理 12. 2, 当 充分 大 时 ,对 任意 状态 s 及 任意 行动 a, 有 V(s)= 
Vi(s) 和 Qs,a) 二 Q,(s,a)。 此 时 ,从 式 (12.29) 可 得 Va (s) 二 V(s)。 根 据 引 理 12. 3,V™(s) 
>V (5) ,所 以 
Va (s) Z2 VG) (12. 30) 

另 一 方面 ,由 于 V(s) 是 所 有 的 策略 在 s 上 取得 的 折扣 奖励 中 的 最 大 值 ,所 以 必然 有 
V^ (入 V(s)。 结 合式 (12. 30) 可 知 Vs (s*)=V(s) 。 这 意味 着 六 是 一 个 最 优 策 略 。 又 由 于 
Q(s.a) —Q, Ga) ,所 以 m, G) =argmax Q (s.a). 这 恰 是 式 (12. 27) 所 描述 的 策略 。 

根据 定理 12. 5, 最 优 策略 的 计算 可 以 转化 为 计算 环境 Q 值 。 根 据 式 (12. 9) ,如 果 能 计 
算出 环境 V 值 ,就 可 以 计算 出 环境 Q@ 值 。 在 所 有 的 R(s,a) 与 T(s,a) 均 为 已 知 的 情况 下 , 结 
合式 (12. 28) 与 Vo(s) 二 0, 就 可 以 用 动态 规划 算法 计算 出 V,(s), 从 而 计算 出 Q,(s,a)。 
根据 引 理 12.1, 当 nn 足够 大 时 ,必然 有 V1(5) 二 V,(s) 二 … 二 V(s)。 此 时 ,动态 规划 算法 
计算 出 的 VOM Q,(s,a) 就 是 环境 V 值 与 环境 Q 值 。 计 算出 环境 Q 值 之 后 ,再 根据 
式 (12.27) 就 可 以 计算 出 最 优 策略 。 以 上 算法 是 通过 迭代 的 方式 来 计算 Q 值 , 因 而 又 称 
其 为 值 迭 代 算法 。 

图 12. 6 是 值 迭 代 算 法 的 描述 。 值 适 代 算法 的 关键 部 分 是 计算 Q 值 的 动态 规划 算法 
Compute_environment_Q_value。 初 始 时 设 Vo 二 0。 然 后 .按照 式 (12. 9) 与 式 (12. 10) 循 环 
和 迭代 地 计算 出 Qi ,Vi Q ,V: ,… ,直至 出 现 某 个 2 使 得 对 任意 状态 都 有 V， 6) =V, Cs). 
此 时 ,动态 规划 算法 收敛 。 当 算法 收敛 时 ,停止 循环 并 输出 环境 Q 值 。 


xod 
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值 迭代 算法 
Compute environment Q _value(S.A.T.R.7): 
for all s€ S:Vo(s)=0 
n—0 
while true; 
nnl 
for all s€ S: 
for all a€ A: 
Q,G.a) — RG.a) - YV,- (T(ssa)) 
for all s€ S; 
V, G) — maxQ, (s.a) 
a€À 
if for all s€ S:V, GO) —V, 4G): 
break 
return Q, 


Value IterationC S.A. T. R.)): 
Q = Compute environment Q value (S.A. T. R.) 
for all s€ S; 
z(s) —argmaxQ(s.a) 
aCA 


return x 


图 12.6 ” 值 迭 代 算法 描述 


以 下 介绍 图 12. 6 的 值 和 迭代 算法 的 具体 实现 。 首 先 ,用 一 个 Environment 类 来 表示 抽象 
的 环境 模型 , 见 图 12.7。Environment 类 是 一 个 基 类 。 在 具体 的 应 用 场合 中 ,通过 继承 该 基 
类 来 生成 相应 的 子 类 环境 。 在 Environment 类 中 包含 环境 模型 的 状态 集 S. 行 动 集 A、 转 移 
函数 T MRAZ R 以 及 终止 状态 集 S_end。 这 些 成 员 的 值 将 由 子 类 确定 。Environment 类 
只 提供 接口 功能 。 在 图 12.7 中 的 第 10,11 行 中 定义 了 一 个 重 置 接口 reset。 在 有 些 环境 中 
需要 初始 状态 reset 接口 就 用 于 输出 初始 状态 。 


machine learning.reinforoement learning.enviroanment 
1 import numpy as np 

z 

3 class virament: 

4 s-L] 

5 æL] 

6 T-L] 

7 meL] 

8 S end- () 

9 

10 def reset (self): 

1l S start —np.randm.randint (0, len (self.S)) 
12 return s start 


图 12.7 Environment 类 
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图 12. 8 是 值 迭代 算法 的 具体 实现 。 在 图 12. 8 中 ,第 3 一 17 行 实现 了 图 12.6 中 的 动 
态 规划 算法 。 第 3 行 中 的 compute_environment_Q_values 函数 共有 5 个 输入 ,分 别 是 状态 
Æ S ITIR A、 转 移 函 数 工 .奖励 函数 尺 以 及 奖励 折扣 yY。 第 4.5 行 初始 化 V 值 和 Q 值 为 
全 0 的 数组 。 第 6 一 16 行 通过 循环 递归 地 更 新 环境 V 值 和 环境 Q (B. 58 7—9 行 依照 
式 (12.9) 更 新 Q 值 。 在 第 10 行 定 义 了 一 个 逻辑 变量 converge, 它 用 于 判断 当前 循环 是 否 满 
Rc SCR TE. IIS SHE converge 的 值 设 为 True。 根 据 式 (12. 10) ,新 一 轮 的 V 值 应 当 等 于 
np. max(Q[Ls])。 一 旦 有 某 一 个 状态 s 使 得 新 一 轮 的 V 值 不 等 于 当前 V 值 , 则 可 以 判断 出 算 
法 尚未 收敛 。 此 时 ,在 第 13 行将 converge 的 值 设 成 False。 第 14 行 更 新 V 值 。 如 果 在 整个 
过 程 中 converge 的 值 都 未 变 成 False, 则 认为 算法 已 经 收敛 。 此 时 ,在 第 16 行 跳出 循环 。 同 
时 ,在 第 17 行 返回 Q 值 。 第 19 一 22 行 定义 的 value iteration 实现 了 图 12.6 "P SEE. PR 
数 value iteration 有 两 个 输入 。 一 个 输入 是 图 12.7 中 的 环境 模型 env, 另 一 个 输入 是 折扣 
常数 y。 在 第 20 行 中 ,算法 从 env 中 读 出 各 环境 参数 。 第 21 行 调用 compute_environment_ 
Q_values 函数 计算 出 环境 Q 值 。 第 22 行 按照 式 (12. 27) 计 算出 最 优 策略 。 


machine learning.reinforcement learning.value iteration 
1 import numpy as np 

2 

3 def campute environment Q values(S, A, T, R, gamma) : 
4 V= np.zeros (len (S) ) 

5 Q-np.zeros ((len(S), 1en(4))) 

6 while True: 

g for s in S: 

8 for a in A: 

9 d s]La]-R s]L a] gamma * | int a s]L a])] 
10 converge- True 

11 for s in S: 

12 if np.mex (d s]) 2 V s]: 

13 converge- False 

14 V.s]- np.mex (d 51) 

15 if converge: 

16 break 

17 retum Q 

18 

19 def value iteration(env, gamma): 

20 S,A,T,R- env.S, env.A, env.T, env.R 

21 Q-oumpute enviroment Q values(S, A, T, R, gamma) 
22 pi-np.argmex(Q, axis- 1) 

23 return pi 


图 12.8 BARAA 
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例 12.1 地 雷 与 宝藏 游戏 。 

在 一 条 长 为 m( 单 位 为 米 ) 的 隧道 某 处 ,有 一 个 智能 小 机 器 人 。 它 每 次 可 以 向 左 移动 
lm, 或 者 向 右 移动 Im。 隧 道 的 左边 尽头 与 右边 尽头 处 各 埋藏 着 一 箱 宝藏 ,在 隧道 中 距 左 尽 
头 d( 单 位 为 米 ) 处 埋 有 一 颗 地 雷 , 如 图 12.9 所 示 。 小 机 器 人 触发 地 雷 或 者 更 得 宝藏 时 游戏 
结束 ; 踩 到 地 雷 将 受到 1000 分 的 惩罚 ,而 更 得 宝藏 将 获得 1000 分 的 奖励 。 
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图 12.9 地 雷 与 宝藏 游戏 


在 这 个 游戏 中 ,状态 是 小 机 器 人 所 处 的 位 置 , 即 状态 集合 S— (0.1. m—1), WRP 
有 两 种 可 能 的 行动 , 即 A 二 10,1)}。 其 中 ,行动 0 KREK 1m, 行 动 1 表示 右 移 ifie 在 S 中 
有 3 个 终止 状态 。 它 们 分 别 是 0,d, 一 1。 如 果 小 机 器 人 走 到 位 置 0 R m—1. W mL A3 T E 
藏 ,游戏 结束 ;如 果 小 机 器 人 走 到 了 位 置 4, 则 不 幸 触 雷 ,游戏 也 结束 。 因 此 ,转移 函数 工 可 
以 定义 为 : 对 任意 s€ (0.dm—1) ,有 

TG;a) = ts dii 
srl. a=1 
M s€ {0,dim—1} i}, Tssa) —s, 

再 来 看 奖励 函数 R。 在 小 机 器 人 处 于 状态 1 时 ,如 果 再 往 左 移 1m, 则 疯 得 宝藏 ,因此 
R(1,0) 二 1000; 同 样 ,在 小 机 器 人 处 于 状态 m 一 2 时 ,再 往 右 移 1m, 也 将 竟 得 宝藏 ,因此 
R(m 一 2,1) 二 1000; 然 而 ,在 小 机 器 人 处 于 位 置 4 一 1 时 ,如 果 再 往 右 移 1m 则 触 雷 ,因此 
R(d 一 1,1) 二 一 1000; 同 样 ,在 小 机 器 人 处 于 位 置 4 十 1 时 ,如 果 再 往 左 移 1m 则 触 雷 ,因此 
R(d 十 1,0) 二 一 1000。 小 机 器 人 在 其 余 的 各 状态 下 采取 任何 行动 的 奖励 值 均 为 0。 

图 12. 10 中 的 程序 通过 继承 图 12. 7 中 的 Environment 基 类 ,将 上 述 环 境 写 成 
Environment 类 的 一 个 子 类 。 


machine learning.reinforoement learning.landmine and treasure 
1 import numpy as np 

2  franmeduüre leaming.reinforomment leaming.ervirorment import Environment 
3 

4 class LandmineAndTreasure (Enviroment) 

5 def | init (self, m, d) 

6 n states-m 

7 n actions-2 

8 S-range(n states) 

9 S end- (0, d, n states - 1) 

10 A-range(n actions) 

11 R-np.zeros((n states, n actions)) 


图 12.10 生成 LandmineAndTreasure 子 环境 的 算法 


12 R n states - 2][ 1]- 1000 

13 RC 1]L0]- 1000 

14 R de 1][0]-- 1000 

15 Re 1][ 1]- - 1000 

16 T-np.zeros((n states, n actions)) 
17 for s in S: 

18 v sl[0]-s-1 

19 sl[1=st1 

20 ifsinS end: 

21 1d slLol-s 

22 TL slL1]-s 

23 Self.S, self.A, self.T, self.R, self.S end =S, A, T, R, S end 


图 12.10 (55 


图 12. 11 中 的 程序 用 值 迭代 算法 为 小 机 器 人 指定 一 个 最 优 的 行走 策略 。 该 算法 中 的 第 
4 行 创建 了 一 个 地 雷 与 宝藏 游戏 。 其 中 ,隧道 长 100m, 且 在 距 隧道 左边 尽头 30m 处 有 地 雷 。 
第 5 行 调用 图 12. 8 中 的 值 迭 代 算法 计算 最 优 策略 。 奖 励 折扣 yY 取 为 0.95。 
1 frcm machine learning.reinforoement learning.value iteration import 
value iteration 
PEE machine leamirg.reinforomment learming.landuine and treasure as gare 


env- game. LandmineAndTreasure (m = 100, d = 30) 
pi-value iteration (env, 0.95) 
print (pi) 
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图 12.11. 小 机 器 人 的 最 优 行走 策略 的 值 迭 代 算 法 

运行 图 12. 11 中 程序 后 ,可 得 到 小 机 器 人 的 最 优 行走 策略 x, 它 有 以 下 的 形式 ; 
Ü. i30 
l; 5230 
即 , 如 果 小 机 器 人 处 于 地 雷 左 侧 , 则 应 当 往 左 移 ;如 果 小 机 器 人 处 于 地 雷 右 侧 , 则 应 当 往 右 
移 。 显 而 易 见 ,这 是 一 个 最 优 策略 。 

在 这 个 例子 中 ,由 于 算法 预先 知道 了 地 雷 与 宝藏 的 位 置 ,所 以 可 以 直接 设计 出 最 优 策 
略 。 这 是 有 模型 的 强化 学 习 。 在 12. 3 节 中 ,从 免 模型 强化 学 习 的 角度 青 来 玩 一 个 类 似 的 游 
戏 。 在 免 模型 强化 学 习 中 ,算法 预先 并 不 知道 地 雷 与 宝藏 的 具体 位 置 。 它 必须 控制 小 机 器 
人 通过 多 轮 游戏 反复 探测 ,并 从 中 逐渐 探索 出 最 优 策略 。 


12.2.2 策略 迭代 算法 
强化 学 习 算 法 的 最 终日 的 是 计算 策略 。 在 值 迭代 算法 中 ,要 等 待 V 值 和 Q 值 收敛 之 后 


xls) = | 
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才能 计算 策略 。 然 而 在 有 些 情况 下 ,可 能 需要 多 次 循环 才能 使 V ES. e, ERA 
就 显得 效率 较 低 。 此 时 ,可 采用 策略 迭代 算法 。 它 是 一 个 直接 对 策略 进行 迭代 的 算法 ,在 选 
代 过 程 中 ,算法 一 旦 发 现 策略 已 经 满足 收敛 条 件 , 则 立即 输出 该 策略 。 
对 于 一 个 确定 性 策略 x, 设 V"、Q" 分 别 是 策略 x 的 V 值 与 Q f. 定义 
Ax(s) = argmax Q* s.a) C12: 1312 
定理 12.6 XHERXE so V GOV" (s). 
证 明 : 设 从 s 开始 执行 策略 m ,生成 以 下 的 序列 : 


Srah -> Shagr > > sh a Th (12..32) 
在 式 (12. 32) 中 ,如果 令 s; — s MIHE n. A 
de= n(ssa)» s= Ts. qo dadi a aa.) (12.33) 
根据 式 (12. 3D "P z 的 定义 ,有 
V*(s) = Q*G.zG)) <S Q' (ssx G2) ri - YV" (51) (12. 34) 


类 似 地 可 以 证 明 , 对 任意 nf 
Ta 一 IE (12.35) 
从 式 (12. 34) 开 始 不 断 将 式 (12. 35) 代 入 ,可 得 
V*G) sri yV" (si) 
Krit yr Y V" (s3) 
sn yri + Y rr Vti) 


Krit yrit Pri + rrite 
—V* (s) 
这 就 证 明了 定理 12.6 的 结论 。 
从 以 上 的 推导 过 程 可 以 看 出 ,如 果 能 够 计算 出 一 个 给 定 策略 的 Q 值 Q", 则 可 以 根据 
Q* ,将 该 策略 改进 为 由 式 (12. 31) 所 定义 的 策略 x ;然后 ,可 以 对 x 进行 同样 的 操作 ,对 其 作 
出 进一步 改进 。 如 此 不 断 循环 ,直至 无 法 继续 改进 时 为 止 ,此 时 的 策略 就 是 一 个 最 优 策略 。 
据 此 ,求解 最 优 策 略 的 问题 就 转化 为 如 何 计算 给 定 策略 的 Q 值 的 问题 。 根 据 式 (12. 21) ,可 
以 通过 计算 策略 的 V 值 来 得 到 策略 的 Q 值 ,而 策略 的 V 值 可 以 用 动态 规划 算法 计算 得 到 。 
由 于 算法 所 制定 的 策略 都 是 确定 性 策略 ,将 式 (12. 23) 代 入 式 (12. 19) ,可 以 得 到 如 下 关 
于 Vx(s) 的 递 推 式 : 


Vi(s) = R(sszG) )- Y Vza (Ts,x(s)) (12,.36) 
AE T 3X C12. 360 ,就 可 以 用 动态 规划 计算 出 给 定 策略 x 的 V 值 和 Q 值 。 
图 12. 12 是 策略 迭代 算法 的 描述 。 首 先 ,.Compute_policy_Q_value 计算 给 定 策略 Q (HL. 
它 与 环境 Q 值 的 计算 方法 十 分 类 似 。 当 足够 大 ,以 致 于 对 任意 ;都 有 Vi(s) 二 Vi_1(s) 时 ， 
认为 算法 收敛 。 此 时 ,V5 =V H QSR. 
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策略 选 代 算 法 
Compute policy Q value (S.A. T. R. y-7) : 
for all s€ S;V 2 —0 
n-c1l 
while true: 
nnl 
for all s€ S: 
for alla€ A: 
QzG.a) - RG«a) - Y Via (T(ssa)) 
for all s€ S; 
VEC) =Q (ssa) ) 
iVi =V: 
break 
return Q7 


Policy_Iteration(S.A,T.R.y): 
for all s€ S: 
mo G) —argmax R (s.a) 
a€A 
7 一 0 
while true: 
Q^ = Compute policy Q value (S.A. T. R. y.7,) 
for all s€ S: 
[ER (s) = argmax Q*» (ssa) 
if ati =R 
break 
n*-nd1l 


return My 


图 12.12 策略 迭代 算法 描述 


随后 的 Policy_Iteration 是 策略 迭代 算法 的 主体 部 分 。 算 法 先 取 定 一 个 初始 策略 o o 
此 处 定义 初始 策略 为 rols)—=maxR(s,a), 一 般 情况 下 ,初始 策略 mm 的 定义 方法 对 算法 的 
最 终结 果 没 有 影响 。 因 此 ,实际 中 可 以 有 多 种 初始 策略 的 定义 方式 。 但 如 果 定 义 的 初始 策 
略 是 合适 的 , 则 可 以 加 快 算法 的 收敛 。 取 定 初始 策略 问 之 后 ,算法 通过 循环 来 逐步 改进 策 
略 。 在 每 一 次 循环 中 ,首先 用 图 12. 12 中 的 动态 规划 算法 计算 Qs ,然后 按照 式 (12. 31) 计 算 
出 一 个 改进 策略 mass IIR mas 一 六 , 则 无 法 继续 改进 策略 了 。 此 时 ,算法 收敛 至 最 优 策 
上 略 , 停 止 循环 迭代 ,并 输出 最 优 策略 。 

图 12.13 是 图 12.12 中 的 策略 迭代 算法 的 具体 实现 。 在 图 12.13 中 的 第 3 一 17 行 
实现 了 图 12. 12 中 计算 策略 Q 值 的 动态 规划 算法 。 在 第 19—31 行 实现 了 图 12. 12 中 
的 策略 迭代 算法 。 算 法 的 实现 技巧 也 与 图 12. 8 中 的 值 迭 代 算 法 实现 相似 ,在 此 不 再 
XR. 
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machine learning.reinforoement learmning.policy iteration 
1 import numpy as np 

2 

3 def ompute_policy Q values(S, A, T, R, gamma, pi): 
4 V-np.zeros (len (S) ) 

5 Q-rp.zeros ((len(S), len(A))) 

6 while true: 

7 fors in S: 

8 for a in R: 

9 d s][a]- R slLa] +gamax V intei s][ a])] 
10 converge = True 

1l for s in S: 

12 ifd slLpil s]] - V s]: 

33 converge- False 

14 X s]-d s][pi[s]] 

15 if converge: 

16 break 

17 retum Q 

18 

19 def policy iteration(env, gamma): 

20 S,A,T,R- env.S, env.A, env.T, env.R 

21 pi-np.argmax(R, axis- 1) 

22 while true: 

23 Q- ampute policy Q values(S, A, T, R, gamma, pi) 
24 converge- True 

25 for s in S: 

26 if np.argrex (d s]) 7 pi s] : 

27 converge- False 

28 pil s]- rp.argrax (d 5]) 

29 if converge: 

30 break 

31 retum pi 


图 12.13 策略 迭代 算法 


策略 迭代 算法 与 值 迁 代 算法 在 最 坏 情 况 下 有 相同 的 时 间 复 杂 度 。 但 有 时 策略 迁 代 算法 
的 收敛 速度 比值 迭代 算法 更 快 一 些 。 尤 其 是 当初 始 策略 ro 本 身 比 较 接近 最 优 策略 时 ,策略 
迭代 算法 可 能 会 快速 收 么 。 在 实际 应 用 中 ,可 以 通过 实验 进行 比较 ,以 选择 较为 合适 的 迭代 


12.3 ”时 序 差分 型 算法 


时 序 差分 型 算法 的 应 用 对 象 是 免 模型 的 强化 学 习 。 在 免 模型 的 强化 学 习 任 务 中 ,环境 
模型 的 转移 函数 了 与 奖励 函数 R 都 是 未 知 的 ,因此 ,算法 必须 自发 探索 环境 以 获得 所 需 的 
转移 函数 T MMRR 的 信息 。 

时 序 差分 型 算法 的 思想 类 似 于 值 迭代 算法 。 它 们 都 是 先 计算 环境 Q 值 , 再 按 式 (12. 27) 
计算 最 优 策略 。 但 二 者 是 有 区 别 的 。 值 迭代 算法 是 有 模型 的 强化 学 习 算 法 。 因 而 , 它 可 以 
预先 获知 转移 函数 T 与 奖励 函数 尺 的 信息 ,这 使 得 算法 可 以 直接 应 用 动态 规划 来 计算 环境 
Q 值 。 时 序 差分 型 算法 并 不 能 预先 知道 环境 模型 的 转移 函数 T 与 奖励 函数 尺 的 信息 , 因 
此 , 它 必 须 通过 一 系列 的 探索 行动 来 估计 环境 Q 值 。 本 节 介 绍 两 个 重要 的 时 序 差分 型 算法 ; 
Sarsa 算法 和 Q 学 习 算 法 。 

Sarsa 算法 和 Q 学 习 算 法 十 分 相似 ,但 又 有 重要 的 区 别 。 这 两 个 算法 的 相似 之 处 在 于 它 
们 都 是 通过 对 下 一 步行 动 的 预测 来 更 新 对 环境 Q 值 的 估计 。 两 个 算法 的 区 别 在 于 : Sarsa 
算法 对 下 一 步行 动 的 预测 就 是 当前 探索 策略 要 采取 的 下 一 步 的 行动 ,而 Q 学 习 算 法 则 用 当 
前 Q 值 所 对 应 的 最 优 策略 作为 下 一 步行 动 的 预测 。 换 句 话说 ,Q 学 习 算 法 的 下 一 步行 动 并 
不 一 定 就 是 算法 所 预测 的 下 一 步行 动 。 像 Sarsa 算法 这 样 的 强化 学 习 算 法 称 为 同 策略 算 
法 ,而 像 Q 学 习 算 法 这 样 的 算法 则 称 为 异 策略 算法 。 

虽然 这 两 个 算法 之 间 只 存在 细微 的 区 别 ,但 Sarsa 算法 和 Q 学 习 算 法 的 效果 却 完 全 不 
同 。Sarsa 算法 更 擅长 于 “ 避 害 ”, 而 Q 学 习 算法 则 是 更 迫切 地 “ 趋 利 ”。 在 后 面 的 例 12. 2 中 
会 演示 这 两 个 算法 的 特性 。 

Sarsa 算法 和 Q 学 习 算 法 都 必须 通过 探索 环境 来 获得 环境 Q 值 。 一 个 最 简单 的 环境 探 
索 方 法 是 : 在 每 个 状态 下 随机 地 选取 一 个 行动 ,并 观察 与 记录 T(s,a) 和 R(s,a) 的 值 。 
按照 这 样 的 探索 方法 进行 多 次 反复 探索 ,就 能 用 已 经 记录 的 T(s,a) 和 R(s,a) 的 值 来 计算 环 
境 Q 值 。 这 一 探索 方法 的 优点 在 于 各 种 不 同 的 行动 都 可 能 被 选中 ,从 而 其 探索 结果 较 全 面 。 
其 不 足 之 处 是 可 能 会 尝试 许多 明显 没有 价值 的 行动 。 


如 果 目 前 已 有 一 个 对 环境 Q 值 的 估计 Q , 则 另 一 种 环境 探索 方法 是 : 在 任意 状态 下， 
采取 基于 Q 的 最 优 行动 argmaxQ(s,a)。 通 过 选取 不 同 的 初始 状态 *, 并 执行 上 述 探索 策 
略 ,算法 也 能 观察 与 记录 环境 信息 。 在 这 种 探索 方式 中 ,如 果 Q 比较 接近 真实 Q 值 , 则 探索 
的 行动 会 比较 接近 真实 的 最 优 策略 可 能 采取 的 行动 ,从 而 可 以 避免 许多 不 必要 的 探索 。 但 


是 ,如 果 @ 与 真实 Q 值 相差 甚 远 , 则 上 述 探索 策略 则 可 能 被 @* 误 导 ”, 而 忽略 了 真正 最 优 的 
行动 。 

为 了 兼顾 上 述 两 种 探索 方法 的 长 处 ,强化 学 习 采 取 一 种 称 为 = 贪心 策略 的 探索 策略 。 
设 包 是 一 个 对 环境 Q 值 的 估计 。 取 定 0<e<1。 在 任意 状态 * 下 ,以 概率 随机 选择 一 个 行 
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动 ,并 以 概率 1 一 e 选择 一 个 基于 Q 的 最 优 行动 argmaxQ(s,a)。 从 直觉 上 看 ,如 果 Q 已 经 比 
较 接 近 真 实 的 环境 Q 值 , 则 贪心 策略 至 少 有 1 一 s 的 概率 探索 到 比较 接近 最 优 策略 的 行 
动 。 而 如 果 Q 与 真实 的 环境 Q 值 相距 甚 远 , 则 e 贪心 策略 至 少 有 e 的 概率 选中 一 个 随机 的 
行动 ,而 不 至 于 完全 忽视 Q 之 外 的 行动 。 图 12. 14 是 e 贪心 策略 算法 的 描述 。 


e 贪心 策略 算法 


Epsilon_greedy (Qa 
r=random number € [0.1) 
if re: 

return random a € A 
else: 


return argmaxQ (s.a) 
aCA 


图 12.14 贪心 策略 算法 描述 
Saras 算法 就 是 一 个 采用 e 贪心 策略 的 典型 算法 。 算 法 在 初始 时 生成 一 个 全 0 的 环境 Q 
值 估计 Q。 显 然 , 不 能 保证 这 是 一 个 准确 的 估计 。 随 后 ,算法 不 断 地 采取 。 贪心 策略 来 探索 
环境 ,并 据 此 更 新 Q 值 的 估计 GQ。 通 过 这 样 的 探索 ,Q 就 逐渐 地 接近 真实 的 Q 值 。 当 探索 的 次 
数 足够 多 之 后 ,算法 基于 Q, 按 照 式 (12. 27) 输 出 一 个 策略 。 图 12. 15 是 Sarsa 算法 描述 。 


Sarsa 算法 
Sarsa(S,A,T,R,N.yY,e.n): 


for all s€ S.a€ A: Q.a)20 
for i—1.2,**.N: 
Seur 7 initial state in S 


while seur € ( terminalstates of S) : 


üu = Epsilon_greedy(Q sSurs AE) 


So 
sext. —Epsilon greedy(Q ssp AE) 


Oilasi )— 0—35Q (so ,aur ) 十 7(R (Seur acur ) YQ sen såa) ) 


ur — Snext 


for all s€ S: 
xs) = argmaxQ (s.a) 
a€A 


return x 


图 12.15 Sarsa 算法 描述 
在 图 12. 15 的 算法 描述 中 ,Sarsa 算法 除了 环境 参数 之 外 ,还 需要 以 下 4 个 参数 : 循环 的 轮 
数 N、 折 扣 常 数 ye 贪心 策略 的 探索 概率 e 和 学 习 速率 初始 时 ,Sarsa 将 环境 Q 值 的 估计 Q 
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取 为 全 0 估计 。 随 后 进行 N 轮 循环 。 每 一 轮 循环 的 初始 状态 设置 成 环境 的 初始 状态 。 然 后 ， 
不 断 地 用 e 贪心 策略 进行 环境 探索 ,直至 到 达 某 个 环境 终止 状态 。 接 着 ,再 进入 下 一 轮 循环 。 
在 每 一 步 环境 探索 中 , 设 se 为 当前 状态 。 首 先 ,依照 = 贪心 策略 生成 一 个 行动 aow ,并 真实 
地 执行 该 行动 。 然 后 ,获取 T Cour as) 和 R(sow ,acw) 的 信息 。 用 so 表示 执行 过 行动 ee 后 到 达 
的 下 一 个 状态 。 此 时 ,已 经 获得 了 Rsee vaue) 的 信息 ,接着 应 该 更 新 对 环境 Q 值 的 估计 Q。 
设 Qus ra) 为 状态 swew 下 行动 a 的 真实 环境 Q 值 ,oa "为 sion 下 的 真实 最 优 行动 , 即 


a" = argmax Q (sss «a ) (12,827. 
对 Q 的 更 新 应 当 采 用 以 下 的 方法 : 
Qs taer) < R (Seur raou ) H Q uenis" ) (12. 38) 


但 是 由 于 a 是 未 知 的 ,因此 ,在 更 新 Q ZN EEE a" 进行 预测 。Sarsa 算法 通过 s 贪心 
策略 来 预测 c”, 即 ,假定 在 状态 see 下 ,通过 e 贪心 策略 获得 的 行动 ww 近似 地 等 于 wa” 。 于 
是 ,Sarsa 算法 用 ae 来 代替 式 (12.38) 中 的 a* 。 由 于 as 只 是 wa"* 的 近似 ,所 以 算法 采用 较为 
保守 的 方式 来 更 新 Q , 即 , 用 一 个 取 定 的 学 习 速 率 $C p DOE FEDT Q 的 更 新 力度 。 具 
体 的 更 新 Q 的 方案 为 

Q (Seur taeu) (1 一 7)Q (Seur acur )H NCR (Seur acur JH YQ (Side )) (12. 39) 
式 (12. 39) 就 是 图 12.15 的 算法 描述 中 的 更 新 Q 的 方案 。 

在 完成 N 轮 探索 后 ,算法 输出 x(s) 二 argmaxQ(swa) 作 为 近似 最 优 策略 。 


可 以 注意 到 ,在 上 述 探索 过 程 中 ,每 一 步 都 真实 地 执行 了 一 次 贪心 策略 。 而 且 , 在 预 
i o^ 时 又 第 二 次 执行 了 e 贪心 策略 。 这 样 做 的 目的 是 为 了 得 到 在 下 一 个 状态 sneu Hb I SAO 
取 的 行动 aneao HF Sarsa 算法 在 下 一 个 状态 处 仍然 执行 s 贪心 策略 ,因此 ,Sarsa 算法 对 下 
一 步 的 预测 行动 是 与 下 一 步 的 真实 行动 一 致 的 。 可 见 , 它 是 一 个 同 策略 学 习 算法 。 

Sarsa 算法 在 每 一 步 中 都 要 依次 用 到 状态 (Cstate) ,行动 (action) .奖励 (reward)\ 下 一 个 状态 
(state) 和 下 一 个 行动 (action) 这 5 个 信息 。 因 而 ,该 算法 以 上 述 5 个 英文 单词 的 首 字母 命名 。 

图 12.16 是 图 12.14 P e 贪心 策略 算法 的 实现 。Sarsa 算法 和 Q 学 习 算 法 都 要 用 到 
图 12. 16 中 的 函数 epsilon_greedy。 


machine learmning.reinforoement learning.epsilon greedy 
1 import numpy as rp 


def epsilon greedy (Q s, n actions, epsilon): 
if np.randam.rand ()« epsilon: 
retum np.randam.randint (n actions) 
else: 


oO 0p wm 


retum np.argmax(Q s) 


图 12.16 c 贪心 策略 算法 的 实现 
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图 12. 17 是 Sarsa 算法 的 具体 实现 。 图 中 第 4 行 的 sarsa 函数 需要 如 下 输入 参数 : 环境 
模型 env、 循 环 的 轮 数 N、 折 扣 常 数 ye 贪心 策略 的 探索 概率 e 和 学 习 速 率 7。 第 7 行 初始 化 
环境 Q 值 估 计 。 第 8 一 17 行进 行 N 轮 探索 。 在 每 一 轮 探索 中 ,在 第 9、10 行 初始 化 状态 值 ; 
第 11 一 17 行 不 断 地 探索 环境 ,直至 到 达 某 个 终止 状态 。 在 每 一 步 探索 中 ,第 12、13 行 执行 
一 次 s 贪心 策略 指示 的 行动 a_cur, 进 入 状态 s_next, 并 获得 相应 奖励 。 第 14 4T HI e 贪心 策 
略 进行 下 一 步 的 行动 预测 a next. 98 15 行 按照 式 (12. 39) 来 更 新 Q 值 估计 。 第 18 行 按照 
式 (12.27) 返 回 一 个 近似 最 优 的 策略 。 


machine leaming.reinforoement. learning.sarsa 

1 import numpy as np 

2  franmachine learning.reinforcement learmning.epsilon greedy import epsilon greedy 

3 

4 def sarsa(env, N, gana, epsilon, eta): 

5 S, A, T, R-env.S, env.A, env.T, env.R 

6 n states, n actions —len(S), len A) 

2 Q =rp.zeros((n_states, n actions)) 

8 for iter in range (N): 

9 env.reset () 

10 S Cur =ervy.s start 

1l while s cur not in env.S end: 

12 a cur =epsilon greedy(d s cur], n actions, epsilon) 

13 s next =int (Hs cur][ a cur]) 

14 a next -epsilon greedy(d s next], n actions, epsilon) 

15 q-(-eta) * d s curl[a cur] *eta * (s ax][a cur] ^ gama * d s next][a 
next]) 

16 d s cur][ a ar] =q 

17 S cur-s next 

18 return np.argrax(Q, axis —1) 


图 12.17 Sarsa 算法 的 实现 


Q 学 习 算法 与 Sarsa 算法 十 分 相似 。 它 们 的 不 同 之 处 是 ,Q 学 习 算法 在 每 一 步 探 索 
中 并 不 采用 es 贪心 策略 来 预测 下 一 步 的 行动 。 图 12. 18 是 Q 学 习 算法 的 描述 。 对 比 
图 12.15 中 的 Sarsa 算 法 ,可 以 看 到 ,两 个 算法 只 是 在 预测 下 一 步行 动 cue 的 方式 上 有 
所 不 同 。 在 图 12. 15 中 ,ax 一 Epsilon_greedy (Q , swen» A, €) ;而 在 图 12. 18 中 , ane = 


argmaxQ (next Jio 
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Q@ 学 习 算法 
Q learning (S.A. T.R. N.y«e.3) : 


for all s€ S.a€ A: Q.a)—0 
for i—1,2,--.N: 
Seur “initial state in S 


while ser € { terminal states of S}: 


aeur 一 Epsilon_greedy(Q PRETI] 


sex; — argmaxQ (snext +4 ) 
a€A 


Q (suc sacs ) - (17 9)Q (Seur raeur ) CR (Seur vacu ) YQ (n sen ) ) 


5 


cur — Snext 


For all s€ S; 
x(s) C argmaxQ (ssa) 
a€A 


return x 


图 12.18 OQ 学 习 算法 描述 

因为 两 个 算法 对 下 一 步行 动 的 预测 方式 不 同 , 所 以 Q 学 习 算 法 与 Sarsa 算法 的 效果 也 
完全 不 同 。Q 学 习 算 法 的 理念 是 ,相信 当前 的 Q 值 估计 Q 已 经 足够 接近 真实 环境 Q 值 。 所 
以 ,算法 的 每 一 步 探索 都 用 基于 Q 的 最 优 行动 argmaxQ (seo) 来 近似 式 (12. 37) 中 的 a*。 
正 因 如 此 , 当 Q 学 习 算法 中 的 Q 确实 接近 真实 环境 Q 值 时 ,Q 学 习 算 法 就 采取 最 直接 地 获 
取 最 大 Q 值 的 行动 ,而 不 考虑 在 后 续 的 行动 中 还 要 采取 e 贪心 策略 ,因而 还 有 的 概率 导致 
惩罚 。 而 Sarsa 算法 则 不 同 。Sarsa 算法 总 是 用 e 贪心 策略 作为 下 一 步行 动 的 预测 ,所 以 它 在 制 
定 策略 时 ,会 将 未 来 的 行动 过 程 中 的 探索 因素 考虑 在 内 ,因此 Sarsa 算法 的 策略 更 加 保守 。 

图 12. 19 是 Q 学 习 算法 的 实现 。 除 了 在 第 14 行 预测 下 一 步 的 行动 cu 的 方式 不 同 ， 
图 12. 19 的 Q 学 习 算法 与 图 12. 17 的 Sarsa 算法 是 完全 相同 的 ,在 此 不 再 袭 述 。 


machine leamning.reinforoement learning.q _ leaming 
frm machine learmming.reinforcement learning.epsilon greedy import epsilon greedy 


g: 

2 

3 

4 defq leaming(env, N, gma, epsilon, eta): 
B S, A, T, R- env.S, env.A, env.T, env.R 

6 n states, n actions- len(S), len(A) 

HI Q-np.zeros((n states, n actions)) 

8 for iter in range (N) : 


图 12.19 Q 学 习 算法 
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9 env.reset () 

10 S cur-env.s start 

11 while s cur not in env.S end: 

12 a cur-epsilon greedy(d s cur], n actions, epsilon) 

13 s next-int(l[s cur][a cur]) 

14 a next-np.argmax d s next] ) 

15 q- (l-eta) * d s car] a axz]* eta* Hs cur][a cur] gamma * Q 
Ls next][ a next.]) 

16 ds ax] a ax]-a 

17 S cur-s next 

18 return np.argmax(Q, axis- 1) 


图 12.19 (45 


例 12. 2 WESERI. 
在 一 块 长 为 nm、 宽 为 n( 单 位 均 为 米 ) 的 沼泽 地 的 右上 角 处 埋 有 一 箱 宝藏 。 在 这 箱 宝藏 旁 
边 的 沼泽 地 的 一 个 边缘 布 满 了 地 雷 。 图 12. 20 是 一 个 


< m=4 f n—4 的 埋 有 一 箱 宝藏 的 沼泽 地 示意 图 。 在 沼 
© © © ] 泽 地 的 某 处 ,有 一 个 小 机 器 人 。 它 每 次 可 以 沿 上 .下 、 
左 、 有 之 一 的 方向 移动 Im, 但 它 不 能 越 出 沼泽 地 。 在 每 

> 一 > c» 轮 游戏 的 初始 ,小 机 器 人 被 随机 地 放置 在 沼泽 地 中 的 一 


" 个 位 置 。 它 的 任务 是 寻找 到 沼泽 地 中 埋藏 的 宝藏 。 触 


Es c D 发 地 雷 或 者 更 得 宝藏 , 则 该 轮 游戏 结束 。 触 发 地 雷 将 受 

到 1000 分 的 惩罚 ,而 更 得 宝藏 则 获得 100 分 的 奖励 。 
"cO — 在 这 个 例子 中 ,算法 预先 并 不 知道 地 雷 与 宝藏 的 位 
ioni MEO i id 可 见 , 这 是 一 个 免 模型 的 强化 学 


图 12. 21 中 的 类 LandmineAndTreasure2d 是 本 例 的 环境 模型 的 实现 。 构 造 函 数 有 两 
个 参数 ,分 别 是 沼泽 地 的 长 m 与 宽 n。 小 机 器 人 在 沼泽 地 的 位 置 由 (i, 丫 表示 (0<i<m 一 1， 
0j 二 n 一 1)。 每 一 个 位 置 都 对 应 一 个 状态 。 因 此 ,总 共有 mo n 个 状态 。 对 任意 0i 
m 一 1 及 0<j 和 <n 一 1, 第 (i, 站 个 状态 的 编号 为 nXi+j。 图 12. 21 中 的 第 9 行 设置 终止 状态 
集合 S_end。 由 于 地 雷 与 宝藏 的 位 置 都 在 沼泽 地 的 第 一 行 ,因此 第 一 行 的 所 有 状态 (0,j ) 8B 
ERIRE COS jS n— D ,它们 对 应 的 状态 编号 为 0,1,…,n 一 1。 
小 机 器 人 沿 上 、 下 、 左 、 右 4 个 方向 移动 ,所 以 共有 4 个 行动 。 依 顺 时 针 次 序 ,分 别 用 0、 
2.3 表示 上 \ 右 .下 \ 左 4 个 方向 的 行动 编号 。 
图 12. 21 中 的 第 11—14 行 设置 奖励 函数 R。 在 沼泽 地 的 第 2 行 中 ,第 0 到 第 "一 2 个 状 
态 所 对 应 的 编号 为 n,n 十 1,… ,2n 一 2。 在 这 些 编号 的 状态 下 ,只 要 往 上 移动 1m 就 会 触 雷 。 
因此 ,在 程序 第 13 行 中 ,这 些 状态 下 的 上 移行 动 (行动 编号 0) 所 对 应 的 奖励 值 是 一 1000。 在 


沼泽 地 第 2 行 的 最 后 一 个 状态 (状态 编号 为 2 一 1) ,向 上 移动 1m 就 可 以 得 到 宝藏 。 
在 第 14 行 ,将 状态 2n— 1 处 的 上 移行 动 的 奖励 值 设 为 100。 


在 第 15 一 25 行 设 置 转移 函数 T。 在 第 19—22 行 中 ,分 别 定义 了 行动 0.1、2、3 对 状态 
的 改变 。 其 中 ,小 机 器 人 不 能 超出 边界 。 例 如 ,如 果 小 机 器 人 已 经 处 于 位 置 (i,0),1 近 ;i 私 
7 一 1, 则 左 移行 动 将 使 小 机 器 人 停留 在 原 地 。 第 23 一 25 行 确保 在 终止 状态 下 ,任何 行动 都 
不 能 继续 改变 小 机 器 人 的 状态 。 


i 
2 
3 
4 
5 
6 
7 
8 
9 


B 


N 
B 
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machine learning.reinforcement learning.landmine and treasure 2d 


inport numpy as rp 


franmechire leamirg.reinforoement Jeaming.ervirorment inport Environment 


class LandmineAndTreasure?d (Environment) : 


def - 


.Anit (self, m n): 
n states-m* n 
n actions- 4 
S-range(n states) 
S end- range (n) 
A-range(n actions) 
R-np.zeros((n states, n actions)) 
for j in range(n- 1): 
R n* 3][0]- - 1000 
R 2* n- 1]L0]- 100 
T-np.zeros((n states, n actions)) 
fori in range m): 
for j in range (n): 
s-n*itj 
Y sl[o]-s-nif i»0elses 
Ts][1]=st1if jen-1elses 
Y sl[2]-s*nif i<m-1 else s 
qLslL3]2s-1i if j> 0 else s 
for s in S end: 
for a inA: 


Tsllal=s 


Self.S, self.A, self.T, self.R, self.S end =S, A, T, R, S end 


图 12.21 地 雷 与 宝藏 游戏 的 环境 模型 


图 12. 22 中 的 程序 分 别 用 Sarsa 算法 和 Q 学 习 算 法 学 习 寻 找 宝 藏 的 最 优 策略 。 算 法 的 
第 5 一 7 行 生成 一 个 长 与 宽 都 为 4m 的 沼泽 地 。 第 8 一 9 行 分 别 用 Sarsa 算法 和 Q 学 习 算 法 
计算 寻宝 的 最 优 行动 策略 。 在 第 11—15 行 , 以 矩阵 形式 来 形象 地 展示 这 两 个 算法 所 得 到 的 


最 优 行动 策略 。 


333 


机 器 学 习 算 法 导论 L 


franmachine learning-reinforcement learning.td.sarsa import sarsa 

fron machine learning.reinforcement leaming.td.q leaming import 

q leaming 

inport machine learning.reinforoement leaming.landmine and treasure 2d as game 


m-4 

w4 

env= game .LandmineAndTreasure?2d (m, n) 

pi sarsa- sarsa (env, 1000, 0.95, 0.2, 0.1) 
pi q-q learning (env, 1000, 0.95, 0.2, 0.1) 


map- (0: "U", 1: "R", 2: "D", 3: "L") 
fori in rang m): 

print( mad pi sarsd s]] for s in range * n, (i1) * n)]) 
fori in range (m): 

print( mad pi d s]] for s in range(i * n, (i+1) * n)]) 


EXT 


图 12.22 Sarsa 算法 和 Q 学 习 算法 求解 寻宝 最 优 策略 的 程序 


了 图 12. 22 中 的 程序 ,可 以 得 到 两 个 算法 的 最 优 行动 策略 为 
UUUU w uu 全 
D. 5E R R RU 
w= g emu [sem 
RUUU RRRU 


在 以 上 的 两 个 矩阵 中 ,第 (7 位 的 元 素 表 示 小 机 器 人 在 沼泽 的 第 (zi,7) 位 置 时 应 当 移动 的 
方向 。 其 中 ,U 表示 上 移 ,R 表示 右 移 ,D 表示 下 移 ,L 表示 左 移 。 从 输出 
Sarsa 算法 和 Q 学 习 算 法 都 成 功 地 为 每 个 位 置 计 算出 了 最 优 的 寻宝 路 线 。 但 Sarsa 算法 选 
择 了 一 条 远离 地 雷 的 路 线 ,并 为 此 绕道 而 行 ,如 图 12. 23(a) 所 示 ; 而 Q 学 习 算法 则 选择 了 直 


达 目 


的 地 的 路 线 ,如 图 12. 23(b) 所 示 。 
导致 这 两 个 算法 的 行动 策略 差别 的 原因 是 : Sarsa 算法 在 每 一 步 选 择 行动 时 都 会 考虑 
后 续 行 动 的 探索 概率 。 由 于 后 续 行动 的 探索 策略 可 能 会 
倾向 于 选择 远离 地 雷 的 路 线 。 这 样 的 选择 可 以 保证 即使 探索 策略 决定 上 移 也 不 至 于 触 雷 。 


结果 可 以 看 到 ， 


决定 向 上 移动 lm, 因 此 Sarsa 算法 


而 Q 学 习 算法 在 每 一 步 选 择 行动 时 并 不 考虑 将 来 的 探索 行动 。 当 算法 发 现 高 奖励 的 行动 
时 ,会 选择 径直 朝 目标 方向 前 进 。 这 样 设计 的 好 处 是 可 以 更 快速 地 到 达 目 的 地 ;但 是 ,如 果 
在 后 续 的 行动 中 探索 策略 决定 上 移 , 则 小 机 器 人 就 会 触 雷 。 


可 以 采用 Sarsa 算法 ,否则 可 以 采用 Q 学 习 算法 。 
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在 实际 应 用 中 ,可 以 根据 问题 的 特性 选择 合适 的 算法 。 如 果 和 希望 制定 较为 保守 的 策略 ， 


B | 二 1 

Le > —ec»-—c5 c c» c < 一 

— o MEE —— == > — 28 — EE — 
(a) Sarsa 算 法 (b) CO 学 习 算法 


图 12.28 ”两 个 算法 选择 的 寻宝 路 线 


12.4 深度 0 神经 网 络 


当 环 境 较 为 简单 时 ,可 以 将 每 个 状态 和 每 个 行动 都 编码 成 一 个 整数 ,然后 用 数组 来 存储 
对 环境 Q 值 的 估计 。Sarsa 算法 和 Q 学 习 算法 都 是 如 此 处 理 的。 但 是 ,在 一 些 较为 复杂 的 
环境 中 ,状态 可 能 是 由 一 组 特征 来 表示 的 。 例 如 ,在 无 人 驾驶 汽车 问题 中 ,环境 状态 是 由 路 
况 和 汽车 仪表 盘 读 数 等 特征 来 共同 表示 的 。 在 这 种 情况 下 ,用 数组 来 记录 环境 Q 值 是 不 现 
实 的。 解决 这 一 问题 的 有 力 工具 是 深度 Q@ 神 经 网 络 (Deep QNetwork,DQN) 算 法 。 

DQN 算法 是 深度 学 习 与 强化 学 习 相 结合 的 产物 。 它 也 是 工业 界 许多 著名 应 用 中 的 算 
法 原型 。 许 多 智能 游戏 平台 的 核心 技术 也 是 DQN 算法 。 值 得 一 提 的 是 ,闻名 于 世 的 
AlphaGo 围棋 博弈 系统 就 是 构建 在 DQN 算法 基础 之 上 的 。 

假设 环境 中 的 每 个 状态 s 都 可 以 表示 成 一 个 元 特征 组 s 王 (zyzz，…zo), 并 设 行动 
S A= (aia; a4). DQN 算法 的 思想 是 用 一 个 神经 网 络 来 输出 对 环境 Q 值 的 估计 。 
具体 来 说 , DQN 模型 是 一 个 有 个 输入 和 个 输出 的 神经 网 络 。 将 状态 的 特征 组 s= 
(xi exp tt ns ) 作 为 模型 的 输入 ,模型 的 输出 是 状态 s 下 的 每 个 行动 的 Q 值 估计 。 图 12.24 
是 DQN 模型 的 示意 图 。 

如 果 用 DQN 模型 来 估计 环境 Q 值 .DQN 算法 就 可 以 根据 式 (12. 27) 输 出 最 优 策略 。 

因此 ,问题 转化 为 如 何 训练 一 个 DQN 模型 。DQN 算法 在 探索 环境 的 过 程 中 使 用 随机 梯度 
下 降 算法 来 训练 DQN 模型 。DQN 算法 探索 环境 的 过 程 与 Q 学 习 算法 十 分 类 似 。 从 一 个 
初始 状态 开始 ,算法 不 断 地 采取 s 贪心 策略 指示 的 行动 来 探索 环境 ,并 更 新 DQN 模型 的 参 
数 ,直至 到 达 某 个 终止 状态 。 然 后 ,再 开始 新 一 轮 的 探索 。 
用 DQN(s,a) 表 示 DQN 模型 对 状态 ;下 行动 a 的 Q 值 估 计 。 在 算法 的 每 一 步 探索 中 ， 
设 当前 状态 为 sur,e 贪心 策略 指示 的 行动 为 ce, 则 算法 采取 行动 we 并 获得 转移 后 的 状态 
Soext 一 (sowr raewr) 和 奖励 值 R(scow ,acw)。 然 后 ,算法 进行 模型 参数 更 新 。 与 Q 学 习 算 法 类 
似 ,DQN 算法 从 式 (12. 40) 获 得 对 下 一 步行 动 asew 的 预测 : 
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Osa) — Q(sa) Qls,a) 


O O «OQ. + 个 输出 神经 元 


nn 个 输入 神经 元 


输入 状态 s=G ty) 
图 12.24 DON 模型 


d = argmax DQN(s a) (12. 40) 
由 此 可 以 得 到 状态 sse 下 行动 ce 的 Q 值 的 一 个 更 加 精确 的 估计 : 
R(Sacs&os ty DAN seri) (12.41) 
由 此 可 知 ,DQN 模型 在 Q(sec,asr) 时 ,有 如 下 的 预测 误差 : 
(R (se 5G )À- Y DQN (sues saei ) — DQN (sic sas) )? (12. 42) 
DQN 算法 通过 反 向 传播 算法 来 更 新 神经 网 络 模型 的 参数 。 对 DQN 算法 的 完整 描述 见 
图 12. 25。 


DQN 算法 
Deep Q Network (S,A.T.R,.N.,7Y,e): 
DQN- initial DQN model 
for i71,2,*,N: 
Seur — initial state of S 
while s, € (terminalstates of S}; 
aar = Epsilon greedy( DQN.s4, .A.&) 
Sixt =T (Sc taer ) 
awu = argmax DQN(ss sa ) 
loss= (R (se« «à ) - DQN (Snert sexi ) — DQN ( Seur enc ) )? 
BackProp( DQN.1oss) 


Seur 一 Snext 


for all sE S; 


aEA 
z G3) —argmax DQN(Gs.a) 


return x 


图 12.25 DON 算法 描述 
为 了 实现 DQN 算法 并 在 一 个 场景 中 展示 算法 的 效果 ,需要 用 到 Open AT 虚拟 环境 。 
OpenAI 是 最 为 常用 的 开发 与 测试 强化 学 习 算 法 的 虚拟 环境 平台 , 它 提供 了 许多 门类 的 虚拟 
环境 ,例如 ,游戏 类 的 吃 豆子 ,太空 大 战 等 一 系列 Atari 电子 游戏 ,还 有 机 器 人 智能 类 的 抬 箱 
子 、 取 物品 等 任务 环境 ,以 及 控制 类 的 如 木 杆 平衡 .小 车 候 山 等 任务 环境 。 
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以 下 通过 OpenAI 中 的 木 杆 平衡 环境 来 展示 如 何 使 用 OpenAI 环境 ,并 介绍 DQN 算法 
的 实现 。 在 木 杆 平衡 问题 的 环境 中 ,一 个 小 车 上 木 杆 角 度 


放置 一 根 小 木 杆 。 在 环境 的 状态 集 S 中 ,每 个 状 
态 由 4 个 特征 表示 : 小 车 位 置 \ 小 车 速度 .水 杆 角 mm 
度 与 木村 角速度 , 见 图 12. 26。 

环境 中 的 行动 集 A (0.1) , 即 有 两 个 可 能 的 


行动 : 0 表示 令 小 车 向 左 加 速 ,1 表示 向 右 加速 。 o* 
环境 的 转移 函数 T 将 根据 物理 定律 模拟 现实 世界 


当 , 则 当 木 杆 角度 超过 15° 后 就 会 倾倒 。 这 时 认为 
到 达 了 一 个 终止 状态 。 


小 车 位 置 ”小 车 速度 


中 小 车 速度 变化 对 状态 的 改变 。 如 果 控 制 小 车 不 图 12-26 木 杆 平衡 环境 的 状态 包含 的 特征 


在 木 杆 平衡 问题 中 ,算法 的 任务 是 通过 学 习 获 得 一 个 控制 小 车 的 策略 ,使 得 木 杆 能 保持 
平衡 而 不 倒 下 。 基 于 这 一 目标 ,环境 的 奖励 函数 RR 有 如 下 形式 : 只 要 当前 的 行动 没有 使 木 


杆 倒 下 , 则 获得 1 分 的 奖励 ,否则 获得 一 100 分 的 惩罚 。 


图 12. 27 展示 了 如 何 使 用 OpenAI 中 的 木 杆 平 衡 环境 。OpenAI 将 其 环境 库 称 为 “健身 
Bi"CgymD, K 12.27 中 的 第 1 行 导 和 人 环境 库 gym。 第 3 行 导入 木 杆 平 衡 环 境 CartPole-v0。 


在 第 4 行 中 ,将 状态 state 设 成 环境 初始 状态 ,这 是 一 个 随机 状态 。 如 果 


时 打印 state 的 


值 , 会 看 到 它 是 一 个 4 元 数组 [0. 016, 0.045. 0. 012,，0. 006] ,数组 中 的 每 个 分 量 分 别 代表 
小 车 位 置 . 小 车 速度 、 木 杆 角度 与 木 杆 角速度 这 4 个 特征 。 第 5 行 定义 action 为 向 右 加 速 行 
动 。 第 6 一 10 行 不 断 地 令 小 车 向 右 加 速 ,直至 木 杆 即 将 倒 下 。 其 中 ,第 7 行 中 的 env. step 是 
OpenAI 定义 的 采取 行动 的 函数 , 它 用 指定 的 行动 作为 输入 。 算 法 的 输出 含有 如 下 4 个 信 
息 : 采取 该 行动 后 转移 至 的 状态 states 四 该 行动 获得 的 奖励 值 rewards 03 f 2 hit 
done, 用 于 表示 是 和 否 已 到 达 终 止 状态 , 即 木 杆 角度 是 否 已 经 超过 阔 值 ; @ 报 错 信息 info. iE 
常情 况 下 都 是 空 值 。 第 8 行 是 OpenAI 提供 的 可 视 化 接口 函数 ,可 以 展示 当前 木 杆 的 


inport gym 


env- gym.make ("CartPole- v0") 
state- env.reset () 


1 

2 

3 

4 

5 action=1 
6 while True: 

7 State, reward, done, info- env.step (action) 
8 env. render (mode- "ro array") 

9 if done: 


10 break 


图 12.27 OpenAl 中 的 木 杆 平衡 环境 
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运行 图 12. 27 中 的 程序 ,就 可 以 看 到 木 杆 从 初始 的 竖 直 状态 到 角度 超过 15 而 即将 倒 下 
的 整个 过 程 ,图 12. 28 是 这 个 过 程 中 的 3 幅 截 图 。 


0l. l1 1 


图 12.28 木 杆 状态 变化 过 程 


木 杆 平衡 环境 是 OpenAI 中 最 简单 也 最 常用 的 虚拟 环境 。 关 于 OpenAI 中 更 加 复杂 的 
虚拟 环境 的 使 用 方法 ,可 参见 Open AT 官方 网 站 。 
图 12. 29 是 木 杆 平衡 环境 中 的 DQN 算法 实现 。 第 6 一 13 行 定 义 了 DQN 模型 的 神经 
络 结构 。 木 杆 平衡 环境 的 每 个 状态 由 4 个 特征 表 出 ,因此 第 10 行 定义 一 个 含有 4 个 神经 
的 输入 层 State。 第 11,12 行 定 义 了 两 个 隐藏 层 ,它们 各 有 24 个 神经 元 。 由 于 有 两 个 不 
HÍT. ,所 以 第 13 行 定 义 了 一 个 含有 两 个 神经 元 的 输出 层 Q_values, 层 中 每 个 神经 元 的 
出 表示 DQN 模型 对 相应 行动 的 环境 Q 值 估 计 。 


ER mI Hi 


import numpy as np 

import gym 

import tensorflow as tf 

import machine learning.reinforoement learning.epsilon greedy as eg 


state size-4 

n hiddenl- 24 

n hidden2- 24 

n actions-2 

10 State-tf.placeholder(tf.float32, shape-[ None, state size]) 

11 hiddeni-tf.layers.dense(State, n hiddenl, activation- tf.nn.relu) 
12 hidden2- tf.layers.dense (hiddenl, n hidden2, activation- tf.nn.relu) 
13 Q values-tf.layers.dense (hidder2, n actions) 


15 Target-tf.placeholder (tf.float32) 

16 Action-tf.placeholder (tf.int32) 

17 Q value-tf.reduce sum(Q values * tf.one hot(Action, n actions)) 
18 1loss-tf.reduce mean(tf.square (Target- Q value)) 

19 aptimizer-tf.train.AdamOptimizer(learning rate- 0.001) 

20 training op= cptimizer.minimize (loss) 


22 env-gym.make ("CartPole- v0") 
23 gamma- 0.95 
24 n iterations- 1000 


25 epsilon max-1.0 


图 12.20 木 杆 平衡 环境 的 DON 算法 的 实现 


338 


26 epsilon min- 0.01 

27 epsilon decay- 0.99 

28 stop penalty-- 100 

29 with tf.Session() as sess: 

30 tf.gldbal variables initializer().run() 

31 epsilon-epsilon max 

32 for iteration in range(n iterations): 

33 state- env.reset () 

34 done- False 

35 steps- 0 

36 while not done: 

37 steps+=1 

38 S cur-state.reshape(l, state size) 

39 Q s cur-Q values.eval(feed dict- (State: s cur]) 

40 a cur-eg.epsilon greedy(Q s cur, n actions, epsilon) 

4l if epsilon» epsilon min: 

42 epsilon* —epsilon decay 

43 State, reward, done, info- env.step (action) 

44 s next-state.reshape(l, state size) 

45 if done: 

46 target- stop penalty 

47 feed dict- (State: s cur, Action: a cur, Target: target) 

48 sess.run(training cp, feed dict- feed dict) 

49 print (steps) 

50 break 

51 else: 

52 Q s next-Q valws.eval (feed dict= (State: s_next}) 

53 target- reward + gamma * np.max(Q s next, axis-1) 

54 feed dict- (State: s cur, Action: a cur, Target: target] 

55 sess.run(training cp, feed dict- feed dict) 

56 env.close() 

图 12.29 (55 

第 15—20 行 按照 式 (12. 42) 定 义 DQN 模型 的 目标 函数 。 首 先 ,定义 一 个 张 量 Target. 

它 的 功能 是 在 通过 环境 探索 进行 模型 训练 时 记录 式 (12. 41) 中 的 新 的 Q 值 估计 。 第 16 行 定 


义 了 另 一 个 张 量 Action。 它 的 功能 是 用 于 记录 每 一 步 探 索 中 的 当前 行动 , 即 图 12. 25 中 的 
aaro $ 17 行 定义 的 Q_value 变量 用 于 计算 DQN 模型 对 行动 Action 的 环境 Q 值 估计 。 第 
18 f1JH tf. one hotCAction. n_actions) 将 Action 进行 了 向 量化 ,行动 0 对 应 于 (1,0) ,行动 
1 对 应 于 (0,1)。DQN 模型 的 输出 Q_values 是 一 个 二 维 向 量 。 它 的 第 一 个 分 量 对 应 于 行 
动 0 的 Q 值 估计 ,第 二 个 分 量 对 应 于 行动 1 的 Q 值 估计 。 因 而 ,向 量 Q values 5 Action 对 
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应 的 向 量 的 内 积 就 是 模型 对 Action 的 Q 值 估 计 。 第 18 行 依照 式 (12. 42) 计 算 预 测 误 差 。 
第 19,20 行 用 随机 梯度 下 降 算 法 更 新 模型 参数 。 

第 22 一 56 行 是 TensorFlow 计算 图 的 运行 部 分 。 第 22 行 导 入 木 杆 平衡 虚拟 环境 。 第 
23—28 行 定义 一 系列 算法 的 参数 。 在 第 23 行 和 第 24 行 中 ,分 别 定 义 折 扣 常 数 为 0. 95 ,并 
指定 环境 探索 1000 轮 。 第 25—27 行 定 义 了 3 个 常数 ,分 别 是 epsilon max. epsilon, min 和 
epsilon_decay。 这 3 个 常数 各 有 其 意义 。 在 用 贪心 探索 策略 时 , 随 着 对 Q 值 的 估计 越 来 
越 准确 ,可 以 逐渐 降低 探索 概率 。。 因 此 ,在 初始 时 ,DQN 算法 将 探索 概率 e 设 为 epsilon_ 
max, 见 算法 第 31 行 。 接 下 来 ,在 每 一 步 使 用 贪心 之 后 ,将 。 的 值 乘 以 一 个 小 于 1 的 衰减 
因子 epsilon_decay, 直 至 e 的 值 减 小 到 epsilon_min 时 就 停止 ,不 再 继续 减 小 。 接 下 来 ,在 第 
28 行 定义 木 杆 倒 下 的 惩罚 为 一 100。 

第 32 行 开 始 1000 轮 环 境 探 索 。 在 每 一 轮 探索 的 开始 ,第 33 行 初 始 化 当前 状态 值 
state。 第 34 行 定义 人 逻辑 变量 done 来 表示 是 否 已 到 达 终 止 状态 ,开始 时 将 其 设 为 False。 第 
35 行 定义 一 个 变量 steps 来 记录 本 轮 探索 中 小 车 保持 木 杆 平衡 的 步 数 。 第 36 行 开 始 本 轮 
探索 ,只 要 木 杆 不 倒 就 一 直 继 续 这 一 轮 的 探索 。 在 每 一 步 中 ,第 38 行将 当前 状态 state 转化 
为 神经 网 络 指定 的 输入 格式 s_cur。 第 39 行 运行 神经 网 络 获得 s cur 下 各 行动 的 环境 Q fü 
估计 Q_s_cur。 第 40 行 按照 s 贪心 策略 生成 当前 状态 s cur 下 的 行动 a_cur。 执 行 过 一 步 。 
贪心 探索 以 后 ,在 第 41,42 行 按照 计划 降低 探索 概率 。 的 取 值 。 第 43 行 获取 下 一 个 状态 和 
当前 步 的 奖励 reward 的 信息 。 第 44 行将 下 一 个 状态 转化 成 神经 网 络 输入 的 格式 s_next。 
至 此 ,有 以 下 两 种 可 能 的 情况 : 

CD 如 果 在 s_next 下 木 杆 即 将 倒 下 , 则 s cur 下 行动 a_cur 的 环境 Q 值 为 一 100。 第 46 
行将 用 于 存储 新 的 Q 值 估计 的 变量 Target 的 值 设 成 一 100。 然 后 ,在 第 47 —50 行 运 行 随 机 
梯度 下 降 算法 来 更 新 神经 网 络 参数 并 打印 本 轮 探索 运行 的 步骤 。 此 后 ,结束 本 轮 探索 。 

(2) 如 果 在 s next. 下 木 杆 依然 不 倒 , 则 在 第 52,53 行 按照 式 (12. 42) 计 算 预 测 误差 ,并 
运行 随机 梯度 下 降 算法 ,更 新 神经 网 络 参 数 。 

运行 图 12. 29 中 的 算法 之 后 ,得 到 了 控制 小 车 的 策略 以 及 图 12. 30 的 输出 。 从 图 中 可 
VUE SI. 在 探索 200 轮 时 , 木 杆 不 到 100 步 就 倒 了 。 但 随 着 环境 探索 轮 数 的 增加 ,保持 木 杆 
平衡 的 步 数 也 在 增加 。 到 探索 轮 数 超过 800 时 ,保持 木 杆 平衡 的 步 数 就 稳定 在 190 步 左 右 。 

工业 界 的 许多 强化 学 习 应 用 都 是 在 图 12. 25 的 DQN 算法 基础 之 上 再 做 一 些 稳定 性 的 
加 强 而 形成 的 。 比 较 常 用 的 有 以 下 两 类 加 强 方式 。 

第 一 类 加 强 称 为 经 验 池 算法 。 在 图 12. 25 的 DQN 算法 中 ,可 以 将 每 一 步 探索 的 结果 看 
作 一 条 DQN 模型 的 训练 数据 。 由 于 这 些 训练 数据 出 现 的 顺序 不 是 随机 的 ,而 是 由 环境 的 转 
移 函 数 决定 的 ,所 以 图 12. 25 中 算法 并 不 是 真正 意义 上 的 随机 梯度 下 降 算 法 。 经 验 池 算法 
的 做 法 是 : 将 这 些 训练 数据 存 人 一 个 称 为 经 验 池 的 数组 中 ,然后 ,每 次 从 该 数组 中 随机 选取 
一 条 经 验 数 据 来 进行 梯度 下 降 。 这 种 做 法 能 使 模型 的 训练 更 加 忠实 于 原始 的 随机 梯度 下 降 
的 思想 。 

第 二 类 加 强 称 为 双 模型 DQN 算法 。 图 12. 25 的 DQN 算法 按照 式 (12. 42) 计 算 预 测 误 
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200 400 600 800 1000 
探索 轮 数 


图 12.30 DON 算法 环境 探索 轮 数 与 保持 木 杆 平衡 的 步 数 的 关系 


差 。 式 中 的 DQNG ,awwr) 可 看 成 是 模型 的 预测 值 ,R(sowr sao) 十 YDQN (sus sanex ) 可 看 作 
标签 值 。 因 此 ,这 个 预测 误差 可 看 作 均 方 误差 。 但 在 通常 意义 上 的 标签 值 应 该 是 一 个 客观 
事实 ,不 能 由 模型 预测 来 决定 。 而 Rus deur) HY DON (ses tanen ) 的 值 是 与 模型 在 so 上 的 
预测 DAN (sus sanen ) 有 关 的 ,将 其 作为 标签 可 能 会 使 模型 陷入 “自以为是 ”的 处 境 。 也 就 是 
说 ,如 果 模 型 预测 是 失真 的 ,基于 这 个 模型 预测 所 获得 的 训练 数据 标签 仍然 可 以 使 式 (12. 42) 
的 损失 函数 取 值 较 小 ,由 此 将 会 进一步 误导 模型 的 训练 。 双 模型 DQN 算法 的 思想 是 ; 用 两 
个 DQN F9 DQN; fll DQN: 相 互 配 合 , 共 同 完成 训练 任务 。 在 每 一 步 探索 中 ,都 更 新 DQN， 
的 参数 。 而 每 完成 一 个 100 轮 的 探索 时 , 才 将 DQN; 的 参数 更 新 成 最 新 的 DOAN, 的 参数 。 
在 每 一 步 探索 中 ,都 用 R (Seur taeu ) HY DON: Gus van ) 作 为 训练 数据 标签 来 更 新 DQN; 的 
参数 , 即 定义 DQN; 模型 的 预测 误差 为 

Ri sad? - Y DQN: (sse saei ) - DON seu acc) (12.43) 
按 式 (12. 43) 定 义 的 标签 值 RCGscow saeur) HY DON: Ges + anexi) DR DQNi 有关, 因此 , 双 模 
型 的 DQN 算法 避免 了 因 标 签 值 与 模型 预测 有 关 而 可 能 导致 的 问题 。 


12.5 策略 梯度 型 算法 


Sarsa 算法 Q 学 习 算 法 和 深度 Q 神经 网 络 算法 都 是 基于 对 环境 Q 值 学 习 的 时 序 差分 
型 算法 。 本 节 要 介绍 的 策略 梯度 型 算法 是 另 一 类 免 模型 的 强化 学 习 算法 。 其 中 ,最 具 代表 
性 的 是 REINFORCE 算法 和 Actor-Critic 算法 。 它 们 的 风格 完全 不 同 于 对 环境 Q 值 学 习 的 
算法 。 策 略 梯度 型 算法 与 时 序 差分 型 算法 是 两 类 最 常用 的 免 模型 强化 学 习 算法 。 

策略 梯度 型 算法 的 特点 是 直接 对 随机 策略 建 模 。 如 果 策 略 是 随机 的 , 则 x(s) 是 一 个 随 
机 变量 , 且 x(s,a) 是 状态 s 下 采取 行动 a 的 概率 。 策 略 梯度 型 算法 采用 参数 化 的 模型 bw (>) 
来 计算 x(s,a)。 通 常情 况 下 .hw(s) 的 形式 可 定义 为 Softmax 模型 。 假 定 每 个 状态 s 都 可 以 
由 个 特征 表达 , 即 s= (xsara) AERE s 下 共有 kk 个 可 能 的 行动 ,即行 动 集 A= 
代 ,2,…,k)}。 计 算 Ga) (1a E) B) Softmax 模型 为 


341 


机 器 学 习 算 法 导论 l 


(w s) 《wa s) IL 
hw(s) | C —— (12. 44) 


37—31 t. 
> NL ` ene? b: ente? 
t=1 t=1 


t=1 
式 中 ,w。 ER" 为 n EAk). EX hw(s) 的 第 a 个 分 量 表示 模型 在 状态 s 下 采取 行 
动 a 的 概率 , 即 


eno? 


z(s.a) = hwCs.a) E ， l&asxk (12. 45) 


> ene? 


由 此 可 知 , 通 过 估计 出 在 状态 s 下 模型 的 nXk 参数 矩阵 W= (wi «ws ,wi ) ,就 可 以 由 
模型 计算 出 在 状态 s 下 采取 行动 1,2,…',& 的 概率 。 这 就 是 策略 梯度 型 算法 的 基本 思想 。 


12.5.1 REINFORCE 算法 


REINFORCE 算法 是 直接 对 随机 策略 建 模 的 策略 梯度 型 算法 。REINFORCE 的 基本 
思想 是 : 在 探索 环境 的 过 程 中 ,用 策略 模型 指定 的 概率 分 布 来 选择 行动 。 如 果 发 现 了 一 个 
奖励 值 高 的 行动 , 则 更 新 模型 参数 以 增 大 后 续 的 探索 中 再 次 选中 该 行动 的 概率 。 

REINFORCE 算法 以 式 (12. 44) 的 Softmax 模型 为 随机 策略 模型 。 它 巧妙 地 借助 了 交 
Xd SHE DYRERdH. 55 5 章 中 介绍 过 Softmax 回归 算法 。 在 一 个 上 元 分 类 问题 中 ,通过 
Ti] ve oe SU RT LIAK Softmax 模型 正确 预测 样本 x 的 标签 的 概率 。 借 助 这 一 思想 ,在 
REINFORCE 算法 中 , 设 总 共有 上 种 不 同 的 行动 ,并 设 hw 为 一 个 策略 模型 。 于 是 对 任意 状 
态 s,hw(s)E€ [0,1]* 表 示 采 取 各 个 行动 的 概率 。 对 于 一 个 特定 的 行动 a, 如 果 希 望 更 新 参数 
本 ,使 得 将 来 hw 能 以 更 高 的 概率 选 出 行动 a, 则 可 以 构造 一 个 样本 (s,y)。 其 中 ,标签 yE 
{0,1)* 的 第 a 位 是 1, 其 余 位 是 0。 然后 ,通过 最 小 化 交叉 炉 的 方式 来 更 新 W, 使 得 ay CS) E 
加 接近 标签 y。 换 句 话 说 ,策略 将 以 更 大 的 概率 输出 a。 

根据 随机 梯度 下 降 公式 ,假定 7 为 学 习 速 率 , 如 果 和 希望 增 大 行动 a 将 来 再 次 被 选中 的 概 
率 , 则 应 当 按 以 下 的 方法 更 新 参数 W: 

WW. Vy,loghw(s)) =W 4-3» * Voghw(s,a) (12. 46) 
在 式 (12.46) 中 ,loghw(s,a) 是 关于 W 的 实 函数 , 式 中 所 计算 的 梯度 是 loghw(s,a) 关 于 W 的 梯度 。 

可 以 注意 到 ,REINFORCE 算法 只 希望 增 大 能 够 带 来 高 奖励 的 行动 的 概率 。 因 此 ,需要 
对 式 (12.46) 做 出 修改 。 设 当前 状态 s 是 一 轮 探索 的 第 上 步 。 采 取 行 动 a 之 后 ,获得 奖励 ~ 一 
R(s,a) ,因此 行动 a 可 获得 的 折扣 奖励 就 是 YY，r。REINFORCE 算法 在 式 (12. 46) 的 基础 
上 用 折扣 奖励 值 xY， r 作为 梯度 的 权重 , 它 的 参数 更 新 公式 如 下 : 

W<—W+i+y* Y *r* MoghwGs.a) (12. 47) 
采用 这 样 的 权重 ,REINFORCE 算法 的 参数 更 新 自然 地 引导 模型 增 大 高 奖励 行动 的 概率 。 

综合 以 上 分 析 , 可 以 对 REINFORCE 算法 作出 完整 描述 ,如 图 12. 31 所 示 。 在 算法 的 
开始 时 , 先 随机 生成 模型 参数 WW, 然 后 进行 N 轮 环境 探索 。 每 一 轮 探索 都 从 环境 初始 状态 
开始 ,不 断 依照 模型 输出 的 策略 行动 .并 根据 获得 的 折扣 奖励 值 ,按照 式 (12. 47) 更 新 模型 参 
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数 ,直至 到 达 某 个 终止 状态 。 


REINFORCE 算法 
REINFORCE (S.A. T.R. N.y.7D: 
W= random initial model parameters 
for i—1,2,-,N: 
Sar — initial state in S. 
1—0 
while ser € ( terminalstates of S}: 
aer 一 hw (seur ) 
yen = T ( Seur racur ) 
WW g ° Y * R (Sertac ) Vog hw Gt saeur) 
Seur 一 Snext 
tetti 
return hw 


图 12.31 REINFORCE 算法 描述 


图 12. 32 实现 了 REINFORCE 算法 来 解决 木 杆 平衡 问题 。 该 算法 采用 Softmax 模型 
作为 策略 模型 。 第 9 一 30 行 是 算法 的 主体 部 分 。 第 10 行 随机 地 初始 化 模型 参数 。 第 11 行 
始 进行 n_iter 轮 环境 探索 。 在 每 一 轮 探 索 中 ,第 19 行 计 算 Softmax 模型 在 当前 状态 s 下 
各 行动 的 概率 probs。 第 20 行 按照 probs 随机 选取 一 个 行动 a。 第 21 行 执行 行动 a, 以 获 
得 下 一 个 状态 的 信息 以 及 s 下 行动 a 的 奖励 值 信 息 。 第 22 一 24 行 计算 标签 值 y, 这 是 一 个 
n actions 维 的 {0,1) 向 量 。n_actions 等 于 行动 的 个 数 。y 向 量 中 的 第 a 个 分 量 取 值 1 ,其余 
的 分 量 都 取 值 0。 第 25 行 按 式 (12. A80 TE E 2E SURE RR E 

Vioghw(s»a) —— s! (hw(s) — y) (12. 48) 
这 里 s 是 一 个 行 向 量 。 第 26—28 行 判断 木 杆 是 否 已 经 倒 下 。 如 果木 杆 已 经 倒 下 , 则 将 奖励 
值 设 为 一 100, 并 打印 在 这 轮 探 索 中 总 共 持 续 的 步 数 。 第 29 行 按照 式 (12. 47) 更 新 模型 
参数 。 


inport numpy as mp 
import gym 


def softmax (scores) : 
e= np.exp (scores) 
s-e.sun() 


return e/s 


cO 0 - 0 0&6 Ut Fc 


def ENRE (env, state size, n actions, n iter, gamma, eta): 


m 
o 


W-np.randam.rand(state size, n actions) 


3x for iter in range(n iter): 


图 12.32 TF [8 88 É] REINFORCE 算法 的 实现 
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12 state- env.reset () 

13 done- False 

14 discount- 1 

i5 steps= 0 

16 while not done: 

17 stepsr-1l 

18 S-state.reshape(l, state size) 

19 probs- softmax (s.dot (W) ) 

20 a-np.randm.choice(n actions, p= probs.reshape (- 1)) 
21 state, reward, done, info=env.step(a) 
22 y-np.zeros (n actions) 

23 Walei 

24 y- y.reshape (1, n actions) 

25 gradient- - s.T.dot (prabs- y) 

26 if done: 

27 reward- - 100 

28 print("iteration () lasts for {} steps".formet (iter, steps)) 
29 WW eta* discount * reward* gradient 
30 discount * —garma 

3l 

32 env-gym.make ("CartFole- v0") 

33 FEINFORCE (env, 4, 2, 3000, 0.95, 0.1) 


图 12.32 (55 


运行 图 12. 32 中 的 算法 之 后 ,可 以 从 输出 的 图 12. 33 中 看 到 探索 轮 数 与 保持 木 杆 平衡 
的 步 数 之 间 的 关系 。 在 探索 轮 数 低 于 600 轮 时 , 木 杆 平衡 的 步 数 随 着 探索 轮 数 的 增加 而 增 
加 ; 当 探索 轮 数 超过 600 时 ,保持 木 杆 平衡 的 步 数 呈现 出 先 增 后 减 的 变化 态势 ;在 探索 了 约 
700 轮 时 ,保持 木 杆 平衡 的 步 数 接近 180 步 。 


1751 
1504 
1251 
1001 
751 
501 
251 


步 数 


0 20 400 600 800 1000 
探索 轮 数 
图 12.33 REINFORCE 算法 探索 轮 数 与 保持 木 杆 平衡 的 步 数 的 关系 
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12.5.2 Actor-Critic 算法 


Actor-Critic 算法 是 另 一 个 经 典 的 策略 梯度 型 算法 。 该 算法 中 含有 两 个 模型 ,分别 是 策 
略 模型 和 状态 的 环境 V 值 模型 。 策 略 模型 决定 行动 的 概率 分 布 ,这 个 模型 又 被 形象 地 称 为 
演员 (Actor) 模 型 。 环 境 V 值 模型 用 于 估计 状态 的 环境 V 值 , 它 指导 演员 模型 的 更 新 , 因 
此 ,这 个 模型 又 被 形象 地 称 为 评论 家 (Critic) 模 型 。 

在 算法 中 ,演员 模型 就 是 REINFORCE 算法 中 的 策略 模型 ,不 再 袭 述 。 对 任意 状态 s, 
评论 家 模型 V,(s) ER ,用 于 估计 s 的 环境 V 值 。 其 中 ,u 是 模型 参数 。 

线性 模型 是 一 个 常用 的 评论 家 模型 。 假 设 每 个 状态 s 可 以 由 nn 个 特征 表示 , 即 SCR". 
线性 评论 家 模型 具有 如 下 形式 : 


V.) = (su (12.49) 
其 中 ,模型 参数 wER"。 
图 12. 34 是 Actor-Critic 算法 的 描述 。 它 与 REINFORCE 算法 的 结构 类 似 。 它 通过 N 
轮 探索 来 训练 演员 模型 hw 和 评论 家 模型 V,。 开 始 时 ,算法 随机 地 初始 化 演员 模型 的 参数 
W 和 评论 家 模型 的 参数 u。 然 后 ,在 每 一 轮 探 索 中 ,不 断 按照 演员 模型 生成 的 策略 采取 行 
动 ,直至 到 达 某 个 终止 状态 。 在 探索 的 每 一 步 中 ,假定 当前 状态 是 sow, 根据 演员 模型 
hw(sewr ) 选 择 行动 co, 从 而 获得 下 一 个 状态 ss 的 信息 以 及 ae 获得 的 奖励 值 Ra saeur) o 
通过 这 一 步 探索 ,算法 有 了 新 的 环境 V 值 的 估计 尺 (seyaur) 十 yYV. (ssew )。 用 6 表示 新 的 V 
值 估计 与 当前 V 值 估计 的 差 值 ; 


9 — R (Sac sacs )- IN (Sn ) — Va Scc) (12. 50) 
Actor-Critic 算法 更 新 演员 模型 的 参数 ,使 得 具有 较 大 8 值 的 行动 的 概率 加 大 。 从 直觉 上 
看 , 差 值 $ 越 大 , 则 行动 越 有 价值 ,同时 对 改进 评论 家 模型 也 越 有 帮助 。 基 于 这 一 思想 ， 


Actor-Critic 算法 采用 与 REINFORCE 算法 类 似 的 技巧 ,通过 对 交叉 焙 的 加 权 梯 度 来 实现 上 
述 思 想 。 因 此 ,Actor-Critic 算法 采用 以 下 的 参数 更 新 公式 ， 
W W + qw* Y * 0 * Vlognw (Seur sacr ) (12.515 


其 中 ,mw 是 学 习 速 率 。 
在 对 演员 模型 进行 更 新 之 后 , 接 下 来 就 要 更 新 评论 家 模型 的 参数 w。Actor-Critic 算法 
采取 的 更 新 参数 u 的 方式 为 
wu W,(sq) (12.52) 
记 更 新 参数 & 之 后 的 环境 V (USE Vues .y .3.w, eso (ser)。 根 据 微分 中 值 定理 ,有 
Vota, ew, Guo Gc) — Va (Sac) u * Y *8* |l Wa (Sa) Il? 
=c- ò (12.53) 
其 中 ,ec 一 加 © y'o Wo (sor ) 上 ?ER 为 一 个 实数 。 从 式 (12. 53) 可 以 看 出 ,在 按 式 (12. 52) 
更 新 参数 之 后 ,模型 的 V 值 估计 与 原先 的 估计 Vu (sas ) 之 间 的 差 值 并 不 是 56, 而 是 6 的 某 个 
倍数 。 这 说 明 ,ActorCritic 算法 对 V 值 估 计 采 取 的 是 较为 保守 的 调整 方式 。 
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Actor-Critic 算法 
Actor. Critie (S.A. TR N, Yeh qw) : 
W u= random initial model parameters 
for i—-1.,2,--.N: 
Seur — initial state in S 
1—0 
while s, € { terminal states of S}: 
eu 77 hw (Sos ) 
Sex = T ( Seur racur ) 
9— R (Sour * aeur ) H YVu (oes ) — Vu (Seur ) 
WW iw * Y! * ò * Vlog hw (soryaur) 
uut ° Y *0* Wa (Sa) 
Seur 一 next 


t—tt1 


图 12.34 Actor-Critic 算法 描述 


图 12. 35 是 解决 木 杆 平衡 问题 的 Actor-Critic 算法 的 具体 实现 。 图 中 的 算法 采用 
Softmax 模型 作为 演员 模型 ,采用 式 (12. 49) 的 线性 模型 作为 评论 家 模型 。 在 算法 的 第 26、 
29 行 中 ,根据 式 (12. 50) 来 计算 9S。 当 V, 是 线性 模型 时 ,有 Wu (sow ) 二 s&h, 因此 ,第 35,36 
行 正 是 对 式 (12. 52) 的 实现 。 第 33,34 行 是 对 式 (12. 51) 的 实现 。 算 法 实现 的 其 余部 分 都 
与 REINFORCE 算法 实现 相同 ,在 此 不 再 袭 述 。 


1 import numpy as np 

2 import gym 

3 

4 def softmex (scores) : 

5 e-np.exp (scores) 

6 s-e.sum() 

7 retum e/s 

8 

9 def actor critic(env, state size, n actions, n iter, gamma, eta u, eta W): 
10 W-np.randam.rand(state size, n actions) 

AT u-np.randam.rand(state size, 1) 

12 for iter in range(n iter): 

13 State- env.reset () 

14 done- False 

15 discount- 1 

16 steps- 0 

i7 while not done: 

18 stepst-1 

19 S cur-state.reshape(l, state size) 


图 12.35 木 杆 平衡 问题 的 Actor-Critic 算法 的 实现 
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20 Prabs= softmax(s cur.dot (W) ) 

2t a cur-np.randan.choice (n actions, p= prabs.reshape (- 1)) 
22 state, reward, done, info —env.step(a cur) 

23 if done: 

24 print ("iteration () lasts for () steps".fomat (iter, steps)) 
25 reward- — 100 

26 delta- reward- s cur.dot (u) 

27 else: 

28 s next-state.reshape(l, state size) 

29 delta- reward + gamma * s next.dot(u)- s cur.dot (u) 
30 y= np.zeros (n actions) 

31 Wa ax]-1 

Erd y- y.reshape (1, n actions) 

33 gradient W s cur.T.dot (prabs- y) 

34 W-W-eta W* discount* delta* gradient W 

35 gradient u-s cur.T 

36 u-u*eta ux discount* delta* gradient u 

37 discount * = grma 

38 

39 env-gym.make ("CartPole- v0") 

40 actor critic(env, 4, 2, 1000, 0.95, 0.1, 0.1) 


图 12.35 (£5 
图 12.36 直观 展示 了 图 12.35 算法 的 效果 。 与 图 12. 33 相 比 ,图 12. 36 中 木 杆 平衡 的 


步 数 在 探索 轮 数 增加 的 过 程 中 有 和 较 大 的 波动 。 但 从 总 体 上 看 , 当 探 索 轮 数 超过 800 之 后 ， 
Actor-Critic 算法 保持 木 杆 平衡 的 步 数 接近 于 REINFORCE 算法 。 


0 200 400 600 800 1000 
探索 轮 数 


图 12.36 ”ActorCritic 算法 探索 轮 数 与 保持 木 杆 平衡 的 步 数 的 关系 


本 节 只 是 采用 最 简单 的 模型 来 展示 策略 梯度 型 算法 的 思想 。 在 实际 应 用 中 ,策略 梯度 
E 往 与 深度 学 习 相 结 合 , 即 采用 深度 学 习 模型 作为 策略 模型 。 在 较为 复杂 的 环境 中 ,结合 深 


m 
t 
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度 学 习 来 设计 策略 梯度 型 算法 是 现代 机 器 学 习 的 前 沿 研究 课题 之 一 。 
小 结 


强化 学 习 采 用 马尔 可 夫 模 型 对 环境 建 模 。 在 马尔 可 夫 环 境 中 ,V 值 和 Q 值 是 两 个 重要 
的 概念 ,它们 分 别 度量 了 状态 和 行动 的 价值 。 类 似 地 ,可 以 定义 一 个 策略 的 V 值 和 Q 值 。 
在 任意 一 个 状态 下 ,策略 V 值 总 不 超过 环境 V 值 。 如 果 一 个 策略 在 任意 状态 下 的 V 值 都 等 
于 环境 V 值 , 则 称 该 策略 是 一 个 最 优 策略 。 计 算 最 优 策略 是 强化 学 习 的 主要 任务 。 

强化 学 习 有 两 种 形式 。 

第 一 种 是 有 模型 强化 学 习 。 在 有 模型 强化 学 习 中 ,环境 的 转移 函数 和 奖励 函数 都 是 已 
知 的 ,因此 可 以 用 动态 规划 算法 预先 算出 最 优 策略 。 值 迭代 算法 和 策略 迭代 算法 是 动态 规 
划 型 算法 的 两 个 典型 代表 。 值 迭代 算法 先 用 动态 规划 算法 计算 出 环境 Q 值 ,再 根据 环境 Q 
值得 出 最 优 策略 。 策 略 迭 代 算 法 则 不 同 , 它 从 一 个 随机 的 初始 策略 开始 ,不 断 地 用 动态 规划 
算法 计算 出 当前 策略 的 Q@ 值 ,并 调整 策略 ,直至 算法 收敛 。 这 两 种 动态 规划 型 算法 各 有 其 特 
点 。 在 实际 应 用 中 ,可 根据 需要 选择 合适 的 算法 。 

第 二 种 是 免 模型 强化 学 习 。 在 免 模型 强化 学 习 中 ,算法 需要 自发 地 探索 环境 来 获得 转 
移 函 数 和 奖励 函数 的 信息 。 时 序 差 分 型 算法 和 策略 梯度 型 算法 是 两 类 风格 连 异 的 免 模 型 强 
化 学 习 算 法 。 

时 序 差 分 型 算法 的 思想 起 源 于 动态 规划 型 算法 。 它 采用 。 贪 心 策略 探索 环境 , 同 
时 获得 对 环境 Q@ 值 的 估计 。Sarsa 算法 和 Q 学 习 算法 是 两 个 典型 的 时 序 差 分 型 算法 。 
这 两 个 算法 的 区 别 在 于 : Sarsa 算法 是 一 个 同 策略 学 习 算 法 ,而 Q 学 习 算法 是 一 个 异 策 
略 学 习 算 法 。 这 一 区 别 使 得 两 个 算法 的 效果 完全 不 同 。Sarsa 算法 会 选取 较为 保守 的 
策略 ,而 Q 学 习 算法 则 更 为 激进 。 除 了 Sarsa 算法 和 Q 学 习 算 法 之 外 ,深度 Q 神 经 网 络 
算法 是 另 一 个 重要 的 时 序 差分 型 算法 。 深 度 Q 神经 网 络 算法 是 深度 学 习 与 强化 学 习 相 
结合 的 产物 。 深 度 Q 神经 网 络 算法 的 核心 思想 是 用 一 个 深度 神经 网 络 来 学 习 环 境 Q 
值 。 当 状态 特征 数目 较 大 时 ,深度 Q 神经 网 络 算法 是 较 Sarsa 算法 或 Q 学 习 算 法 更 合 
适 的 算法 。 

策略 梯度 型 算法 的 思想 是 直接 对 策略 建 模 。REINFORCE 算法 和 Actor-Critic 算法 是 
策略 梯度 型 算法 的 代表 。REINFORCE 算法 的 思想 是 训练 模型 参数 以 增 大 折扣 奖励 高 的 行 
动 的 概率 。Actor-Critic 算法 同时 对 策略 和 环境 V 值 建 模 。 在 训练 策略 模型 时 ,算法 训练 模 
型 参数 的 目标 是 增 大 对 环境 V 值 的 估计 带 来 较 大 提升 的 行动 的 概率 。 

强化 学 习 是 人 工 智 能 领域 的 前 沿 研究 课题 。 将 强化 学 习 与 深度 学 习 相 结合 是 解决 许多 
人 工 智能 难题 的 强 有 力 的 手段 。 本 章 的 介绍 为 进一步 探索 强化 学 习 算法 打下 了 基础 。 对 强 
化 学 习 有 兴趣 的 读者 可 进一步 参阅 相关 专著 。 
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习题 


12.1 WESERI. 
地 雷 与 宝藏 朋 的 游戏 规则 与 例 12. 2 相同 。 在 图 12. 37 所 示 3mX3m 的 沼泽 地 中 ,有 一 
个 小 机 器 人 。 它 每 次 可 以 沿 向 上 、 下 、 左 \ 右 之 一 的 方向 


移动 lm, 但 不 能 越 出 沼泽 地 。 若 触发 地 雷 或 者 砚 得 宝 d 
藏 , 则 该 轮 游戏 结束 。 触 发 地 雷 将 受到 1000 分 的 惩罚 ， 
ES 


而 更 得 宝藏 将 获得 100 分 的 奖励 。 
(1) 绘制 游戏 的 马尔 可 夫 状 态 图 。 
(2) 设 折扣 值 y=0. 5, 计 算 每 个 状态 的 环境 V 值 。 


KE 
(3) 设 折扣 值 y 一 0. 5, 计 算 图 12. 37 中 小 机 器 人 在 Xd 
所 处 位 置 上 各 行动 的 环境 Q 值 。 > @ 

OD 设 环境 模型 已 知 。 分 别 用 值 迭 代 算 法 和 策略 
迭代 算法 计算 游戏 的 最 优 策 略 , 并 计算 最 优 策略 的 图 12.37 地雷 与 宝藏 了 
V fü. 

(5) 设 环境 模型 未 知 。 分 别 用 Sarsa 算法 和 Q 学习 算 法 探索 游戏 的 最 优 策略 。 

12.2 拉 斯 维 加 斯 财 徒 。 

拉 斯 维 加 斯 是 著名 的 赌 城 。 城 中 有 一 名 赌 徒 , 他 携 50 个 金币 参加 一 场 赌局 。 赌 局 的 规 
则 如 下 : 赌局 分 轮 进 行 。 每 轮 赌局 抛 一 次 硬币 。 赌 徒 可 以 对 每 轮 赌局 下 注 。 假 设 当 前 他 有 
;个 金币 。 他 可 以 用 0 到 ;之 间 任 意 数 量 的 金币 下 注 。 如 果 抛 硬币 的 结果 是 正面 , 则 赌 徒 赢 
得 与 他 下 注 金 币 等 量 的 金币 数 ;否则 ,他 输 掉 他 下 注 的 金币 。 这 样 一 轮 轮 进行 下 去 ,直到 赌 
徒 输 光 所 有 的 金币 ,或 他 手中 的 金币 数 达 到 100。 假 设 赌局 中 抛 出 硬币 正面 的 概率 是 po 

CD 如 果 p 值 已 知 ,分 别 设计 值 迭 代 算法 与 策略 迭代 算法 计算 赌 徒 的 最 优 下 注 策略 。 

(2) 如 果 p 值 未 知 ,分 别 设计 Sarsa 算法 、Q 学 习 算 法 与 深度 Q 神经 网 络 算法 计算 赌 徒 
的 最 优 下 注 策略 。 

12.3 在 图 12.29 的 基础 上 ,用 TensorFlow 实现 深度 Q 神经 网 络 的 经 验 池 算法 加 强 。 

12.4 在 习题 12. 3 的 基础 上 ,实现 双 模 型 深度 Q 神经 网 络 算法 。 

12.5 图 12. 32 中 的 REINFORCE 算法 采用 了 Softmax 模型 对 策略 建 模 。 请 用 
TensorFlow 实现 采用 神经 网 络 作 为 策略 模型 的 REINFORCE 算法 。 

12.6 图 12. 35 中 的 Actor-Critic 算法 采用 了 Softmax 模型 对 策略 建 模 。 请 用 
TensorFlow 实现 采用 神经 网 络 作为 策略 模型 的 Actor-Critic 算法 。 

12.7 蒙特 卡 洛 算法 。 

蒙特 卡 洛 算法 是 一 个 免 模型 强化 学 习 算 法 。 与 时 序 差 分 算法 的 思想 类 似 ,蒙特 卡 洛 算 
法 也 是 在 探索 环境 的 同时 更 新 策略 。 但 是 与 时 序 差分 算法 不 同 的 是 ,蒙特 卡 洛 算法 并 不 是 
每 一 步 探 索 之 后 都 更 新 策略 ,而 是 经 过 一 组 探索 之 后 再 统一 更 新 策略 。 
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图 12.38 是 折扣 为 y 的 蒙特 卡 洛 算法 描述 。 算 法 初始 时 随机 制定 一 个 策略 ,随后 分 N 
轮 循环 来 更 新 策略 。 在 每 一 轮 循环 中 ,算法 进行 一 组 工 个 回合 的 探索 ,并 记录 探索 过 程 中 每 
一 步 1 的 状态 :行动 ,和 获得 的 奖励 值 R,。 这 些 记录 用 于 计算 每 一 步 上 的 折扣 奖励 C,。 
随后 ,对 任意 一 个 状态 * 和 行动 a, 将 探索 过 程 中 满足 s, 二 s 且 a 二 a 的 G, 的 平均 值 作为 对 
QGs,a) 的 估计 。 最 后 更 新 策略 x(s) —argmax Q (s a) ,并 进入 下 一 轮 循环 。 


蒙特 卡 洛 算法 
7— random strategy 
for i—1,2,--.N: 
sı — initial state in S 
for 上 一 1,2,…,T: 
a,—n(s) 
Sei T(ssai) 
R,=R (s, +a, ) 


fort = 1,2, T: G = 2) Rmn 
for all s€ S and all a€ A: 


D lis = ssa = a}G, 
Qissa) — 4X1 ———————— 


T 
D lis = ssa =a} 


mr 
for all sE S: 


z(s) —argmax Q(s.a) 
a€A 


return x 


图 12.38 蒙特 卡 洛 算法 描述 

(1) 与 时 序 差 分 算法 比较 ,描述 蒙特 卡 洛 算法 的 优势 与 不 足 之 处 。 

(2) 实现 蒙特 卡 洛 算法 。 

(3) 用 蒙特 卡 洛 算法 计算 例 12. 2 中 的 游戏 地 雷 与 宝藏 有 的 最 优 策略 。 

12.8 吃 豆 人 游戏 。 

吃 豆 人 是 一 款 经 典 的 Atari 游戏 。 游 戏 的 任务 是 控 
制 主人 公 Pacman 在 一 个 迷宫 中 吃 掉 所 有 的 豆子 ,同时 躲 
避 魔 鬼 的 追逐 。 图 12. 39 是 一 个 游戏 环境 的 截图 。 

OpenAI 中 集成 了 吃 豆 人 游戏 的 虚拟 环境 。 图 12. 40 
中 的 程序 创建 一 个 吃 豆 人 游戏 环境 。 在 第 4 行 导 入 环 
境 , 该 环境 的 状态 为 一 个 游戏 的 局 面 。 第 5 一 7 行 打印 初 
始 状 态 ( 得 到 图 12. 39)。 游 戏 的 行动 集合 是 A== {0， 
1,…,8}, 其 中 的 数字 分 别 表示 左上 、 正 上 右上、 正 左 、 原 
地 、 正 右 、 左下. 正 下 以 及 右 下 这 9 个 移动 方式 。Pacman 
吃 光 所 有 的 豆子 ,或 Pacman 被 魔鬼 吃 掉 , 则 游戏 结束 。 B 42599. Rer KMS 
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import gym 
import matplotlib.pyplot as plt 


env- gym.make ("MsPaaran- v0") 
cbs= env.reset () 
plt.imshow(dbs) 

pilt.show() 

print(env.action space) 


co - 0 0 & UI HP 


12.40 S ATE S A OpenAl 环境 的 程序 
请 基于 图 12. 40 中 的 程序 设计 一 个 强化 学 习 算法 , 找 出 吃 豆 人 游戏 的 最 优 策 略 。 
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附录 A 机 器 学 习 数学 基础 


机 器 学 习 是 一 门 涉及 数学 统计 学 与 计算 机 科学 的 交叉 学 科 。 本 书 的 主题 是 机 器 学 习 
算法 。 而 要 学 好 算法 ,需要 有 扎实 的 数学 基础 。 在 介绍 算法 原理 时 常常 涉及 许多 基本 的 数 
学 知识 。 纵 观 全 书 ,需要 准备 的 数学 基础 主要 有 4 部 分 : 线性 代数 、 微 积分 、 优 化 理论 与 概 
率 论 。 本 附录 分 别 用 4 节 来 介绍 这 些 内 容 , 并 力求 在 不 断章取义 的 基础 上 选取 与 机 器 学 习 
算法 直接 相关 的 内 容 , 从 而 使 读者 能 够 有 的 放 矢 地 掌握 相关 的 数学 知识 。 各 节 的 内 容 中 都 
会 涵盖 有 关 的 基本 定义 以 及 重要 的 引 理 与 定理 。 除 此 之 外 ,还 会 介绍 一 些 重要 定理 的 简洁 
且 有 助 于 理解 结论 的 数学 推导 与 证 明 。 


A.1 线性 代数 


1. 向 量 
一 个 nn 维 向 量 v 由 个 实数 vi ive e o iU E m (Qvi ,vo，…,v,)。 用 R" 表 示 全 体 
n 维 实数 向 量 。 
定义 A.1.1( 向 量 加 法 与 数 乘 ) 假设 w= (Qui us sun). V= (Qi ve Wn) HRA n 
维 向 量 ,a 为 一 个 实数 。 定 义 向 量 加 法 与 数 乘 为 
u+ v = (u d visus d vest us v) (A. 1. DD 
au = (auisQuz «*** sou, ) (A.1. 22 
定义 A. 1. 2C] EE BO PI RO. ”假设 w= (u sus us ) V= (i vo eo ) HMA n 维 向 
EEN u 5v 的 内 积 为 
(u, v) = uyvi T uzv 十 … d uv, CA. 1. 3) 
向 量 的 内 积 有 以 下 的 基本 性 质 : 
。 对 称 性 。 设 wu、w AMA n EE, Alu v) =ou), 
* ATETE, Euv 5 wen 维 向 量 ,a 为 一 个 实数 ,有 


附录 A 


j 机 器 学 习 数学 基础 


(u+ v.w) = (uw) + (vw) 
(au. v) = (uav) = alu, v) 
定义 A.1.3( 向 量 的 范 数 ) ”以 lv LRL | o | PIRR n 维 向 量 v — Co even PB La 
TR CR, C 
| vo |= [m I+ Iv n lo l (A. 1.4) 
I v I (v.v) Ubd- vdd uw CA. 1.5) 
在 解析 几何 中 ,向 量 的 内 积 可 以 用 于 表示 一 个 超 平面 。7 维 空间 内 的 一 个 超 平面 可 以 
表示 为 wiati 十 zzz 十 …… 十 runzu 十 0 一 0。 式 中 ,zz ,Xs 是 变量 ,wi ,ws,…,w, ER 是 各 
变量 对 应 的 系数 ,ER 是 常数 项 。 以 向 量 形式 表示 : xS (212s) w= 
(us urs vtt y ), 则 可 以 将 超 平面 方程 表示 为 向 量 内 积 的 形式 : 
(wx) +b=0 (A. 1.6) 
定义 A.1.4( 点 到 平面 的 距离 ) n ES REIP E S 的 方程 为 (w,x) 十 0 一 0。 
R" 中 任意 一 点 x" 到 S 的 距离 定义 为 
| ext +e] 


dix" WS CA. 1.7) 


定义 A.1.5( 线 性 空间 ) — ibo v7 Lev? ER Ek An HEISE. Hv v vens, 
v? 3K JR ZR TE zs FR] XE CON 
Span (v? , v? pee, 99 ) — (A, v? EA; v? 4 Avo MN A ER} 
CA. 1. 8) 
定义 A.1.6( 线 性 相关 与 线性 独立 ) o, v? Lev? ER Ek An 维 向 量 。 如 果 
存在 一 组 不 全 为 0 的 实数 1 ,hz et AL ETE AL vP 十 iso2 十 … 十 Mu 一 0, 则 称 向 量 组 
vP, vP ,vw 中 线性 相关 ;否则 称 这 个 向 量 是 线性 独立 的 。 
如 果 向 量 组 v2 中 ,wv ,…,v 中 线性 相关 , 则 个 向 量 中 必定 有 某 一 个 向 量 可 以 被 其 他 
& 一 1 个 向 量 线性 表 出 。 不 妨 假设 A 隆 0, 则 由 式 (A. 1. 10) 可 得 


w LÀ Qo y Ayo | Aka CD 1 
‘si m 
v A oO + ^ v? 4 E à v (A ) 


HIT v? RT UL vC , v ,2 线性 表示 ,因此 可 以 将 线性 空间 Span v v? , 
v )3E 3 Span(v? , v? ,«. 997? ), 
dk vU .vO ,…,v% ER" 是 k 个 线性 相关 的 n 维 向 量 。 如 果 以 式 (A. 1. 9) 的 方式 依次 
将 可 以 由 其 他 向 量 线性 表示 的 v” 去掉 , 则 可 以 获得 一 组 线性 独立 的 向 量 。 不 妨 设 这 一 组 线 
性 独立 的 向 量 为 2 v0 Le v WA 
S= Spano, o P o j= Span( v7 , o pwn 


2k VET sr B3 po] Ro 1o? eco P 就 称 为 S 的 一 组 基 。r 被 称 为 S 的 秩 , 记 作 rank (S). 


2. 矩阵 
一 个 mXn EEA 表示 将 m Xn 个 实数 排列 成 的 m ÍT n 列 的 阵列 : 
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Aml Am2 ver Ama 
通常 称 为 m íT n IEI , ER mox n EE, EE A 也 常 简 记 为 A 二 (as )i<i<wa<i<ns 
—^ n 维 向 量 v= (wi vo o, ) BERT EUR ILE 1X n ABE v — [vi vo ou] E 
可 以 看 成 是 zzX1 BE 


只 有 一 行 的 矩阵 称 为 行 向 量 。 只 有 一 列 的 矩阵 称 为 列 向 量 。 按 照 惯例 , 当 一 个 运算 中 
婚 含 有 向 量 又 含有 矩阵 时 ,向 量 均 以 列 向 量 的 形式 表示 。 

列 向 量 的 男 一 种 表示 法 是 v== (vi vs ,…,w)T. 其 右上 角 的 符号 T 称 为 转 置 运算 。 

定义 A.1.7( 转 置 ) BAS (aj )ieienaejes 74 m X n RB PE. A WIRE TER PEU AT , 它 是 
如 下 的 nXm Bf: ATS (aj )1<j<nn<i<m。 

定义 A.1.8( 和 矩阵 加 法 、 哈 达 玛 乘积 与 数 乘 ) Ha 为 一 个 实数 ,4 与 B I mox n 和 矩阵， 
A= (ai )ieicnacjen B= (bj )i<i<mwl<i<w。 可 以 定义 4 与 如 的 如 下 运算 ， 

* A S B 的 和 A 二 B= (aj b; )i<i<wal<j<n。 

* A 5 B 的 哈达 玛 乘积 A。B= (ajbi )ucicnaejen o 

* a SA lE aA —Aa- (aa; )1<i<m1<j<n。 

矩阵 的 乘法 与 常规 运算 略 有 不 同 。 两 个 矩阵 A 与 B nT3elmiSedeABI A 的 列 数 等 于 
HEB 的 行 数 。 

定义 A.1.9( 和 矩阵 乘法 ) ”假定 A 是 一 个 m X n BEL B 是 一 个 nXp 和 矩阵 ,定义 C=AB 
为 一 个 m Xp 矩阵 ,其 中 CC 的 第 i 行 与 第 & 列 的 元 素 为 


Cà = da bi a5 ba T ta bu = us by. lxisxmlsks«np CA. 1. 10) 


根据 定义 A.1.9, 向 量 的 内 积 也 可 以 表示 为 矩阵 乘法 的 形式 。 假 设 u,vER" 是 两 个 
n 维 列 向 量 , 则 它们 的 内 积 (u,v) 可 以 表示 为 uTv, 也 可 以 表示 为 v"Tu。 这 3 种 向 量 内 积 的 表 
示 方 式 没 有 本 质 区 别 , 可 以 按照 方便 叙述 的 原则 选择 其 中 之 一 作为 向 量 的 内 积 表示 方式 。 
引 理 A. 1.1. 设 A 是 一 个 mXn 和 矩阵 ,B J&— nX p 和 矩阵 ,C 是 一 个 pXg 和 矩阵 , 则 
(AB)C = A(BC) CA. 1.121) 
(AB )* = B'AT CA. 1. 12) 
将 行 数 与 列 数 相同 的 nX n 和 矩阵 称 为 一 个 MEER n 阶 方 阵 。 如 果 nn 阶 方 阵 中 的 主 
对 角 线 位 置 上 的 元 素 均 为 1, 其 他 位 置 上 的 元 素 均 为 0, 则 称 这 样 的 阶 方 阵 为 n 阶 单位 阵 。 
VA Lm n 阶 单位 阵 : 
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， 0 
L-|. . . . CA. 1. 13) 


0, 0, *, 1 
5]38 A. 1.2. 设 A 是 一 个 n 阶 方 阵 , 则 AI, —LA—A. 
定义 A.1.10( 方 阵 的 逆 ) 设 A J& n 阶 方 阵 。 如 果 存 在 男 一 个 WEB 满足 4B 一 
BA —L, , 则 称 A 是 一 个 可 北方 阵 。 此 时 称 B 是 A 的 逆 , 记 作 B= 二 A 。 
定义 A.1.11( 行 列 式 ) E A (aj )i<ij<s 是 一 个 n KAE. EX A 的 行列 式 为 
detA = 2) (—D'OvietHDa as say, (A.1.14) 


式 中 的 求 和 取 遍 1,2,…,n 的 所 有 排列 。 TO Jn sj) 是 排列 jasje, sjn AI AA PE PR R 
0， 如 果 广 ,js,…，,j 是 偶 排 列 
ji jnt ja) = CA. 1. 15) 
usbedbocmi NN UT > 
定理 A.1.3 假设 A 是 一 个 nn 阶 方 阵 , 则 A 可逆 的 充分 必要 条 件 为 det A40 H. det Az 


0 时 有 


其 中 ,A 是 方 阵 A 的 伴随 方 阵 ,A" 的 第 i 行 第 j 列 元 素 a3 EFOR A 的 第 j 行 
与 第 i 列 去 掉 所 得 到 的 子 方 阵 的 行列 式 。 

A 中 线性 独立 的 列 数 称 为 4 的 列 秩 , 记 为 rank (A). A 中 线性 独立 的 行 数 称 为 4 的 行 
秩 , 记 为 rank* (A). 

定理 A.1.4 设 A 是 一 个 mxXn 和 矩阵 ,A 的 列 秩 为 rank? (A) «A 的 行 秩 为 rank* (A), W 
rank? (A)=rank® (A), 

基于 定理 A.1.4, 可 以 将 矩阵 4 的 行 秩 与 列 秩 的 公共 值 定 义 为 矩阵 4 的 秩 rank (A)。 
在 A 是 n 阶 方 阵 时 ,A 可 逆 的 充分 必要 条 件 为 rank (4) 二 xn。 此 时 也 称 A 为 一 个 满 秩 方 阵 。 

定理 A.1.5 VEA J&— e m X n REL DJ ATA 是 一 个 n 阶 方 阵 , 且 

rank (ATA ) — min{rank° (A) .rank* (A)! CA. 1. 17) 

根据 定理 A. 1.5, 如 果 A 的 列 是 线性 相关 的 , 则 有 rank (A) n. AMA rank(ATA) — 

1。 这 说 明 474 不 可 逆 。 


3. 对 称 方 阵 

定义 A.1. 12( 对 称 方 阵 ) BiA 是 一 个 阶 方 阵 ,如 果 ASAT, WERA 为 一 个 对 称 n 
阶 方 阵 。 

根据 矩阵 转 置 的 定义 ,如 果 A 是 一 个 对 称 方 阵 , 则 对 任意 的 155i. jn as = ay , 即 对 
称 方 阵 中 的 元 素 在 对 角 线 两 侧 呈 镜像 分 布 。 

定义 A. 1. 13( 特 征 根 与 特征 向 量 ) 设 A 是 一 个 n 阶 方 阵 ,如 果 存 在 实数 4 与 n 维 非 0 
向 量 v 满足 Av —Av. MEKAH A 的 一 个 特征 根 ,wv 为 对 应 的 特征 向 量 。 


CA. 1. 16) 
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将 长 度 ( 范 数 ) 为 1 的 特征 向 量 称 为 单位 特征 向 量 。 从 定义 A.1.13 可 以 看 出 ,如 果 wv 是 
一 个 特征 向 量 , 则 wy/ || v || 也 是 特征 向 量 , 并 且 w/ || v || 的 长 度 是 1。 由 此 可 知 ,如 果 一 
阵 有 特征 向 量 , 则 可 以 将 其 转化 成 与 之 等 价 的 单位 特征 向 量 。 

定理 A.1.6 如 果 A 是 一 个 n 阶 对 称 方 阵 , 则 4 一 定 有 ?7 个 实 特 征 根 Ai sàst An IF 
且 存 在 一 组 相互 正 交 的 单位 特征 向 量 o, ve uf, 

WEBB. 根据 定义 A. 1. 13 ,特征 向 量 v 是 线性 方程 组 (4 一 ML)z 一 0 的 非 0 解 ,而 该 方程 
AAE 0 解 的 充分 必要 条 件 为 


人 (A.1.18) 
SCA, 1.18) 等 号 左边 是 关于 4 的 n 次 多 项 式 。 C-RA n MARAR Arane M 
要 证 明 当 A 是 对 称 方 阵 时 ,hi ,Xs，,… ,4, 均 为 实数 。 
IER A vC CX (AAI) v—0 的 复 向 量 解 。 用 5 表示 f AE JE 


T Aw = v  (Av)— v'Ajv 2A, | v Il* CA. 1. 19) 
而 另 一 方面 ,由 于 4 是 实 对 称 方 阵 ,所 以 A 二 A7。 由 此 可 得 
TTAv = T'A" v = (Av)'v = ìà; 9v = À; | vll? CA. 1. 20) 


结合 式 (A. 1. 19) 5 5R CA. 1. 20) 可 得 A, —2 ;。 这 说 明 X; 是 一 个 实数 。 
设 2 .vO Ve ,vw 中 分 别 为 入 ,Xo，,…,X, 对 应 的 单位 特征 向 量 。 以 下 证 明 , 对 于 4; 疾 和， 
v? Ej vO JA ER ATE HL IE A . B C99, v Oy — v OT v? —0, 事实 上 ,有 


v9 TAuO = 0T AVD)= A vT? (A. 1. 21) 
而 男 一 方面 ,由 于 A 二 47 ,所 以 有 
DRA ss — (Ag )T9 9 — 4, g0TqO CA. 1,22) 
结合 式 (A. 1. 21) 与 式 (A. 1. 22) 可 以 得 到 
A; v? T 9 — 4, dd CA. 1. 23) 
由 AZAMARA. 1. 232 RAI v? T 9? —9, 
基于 定理 A. 1.6 中 的 术语 ,如 果 定 义 矩 阵 V 一 (um vOv) WA 
AV —VA (A. 1. 24) 
此 处 A 是 一 个 n 阶 对 角 方 阵 , 它 的 对 角 线 元 为 Ai ,Xs，… hn: 
ài m 0 
A-|$ wo d$ 
Q = A 
因为 2 v? Ve v YI HR p] ht. ELPSTRE IE o6 . T DUE 
VTy — I, 
在 式 (A.1. 24) 等 号 两 端 同时 右 乘 V "可 得 
A = VAV" (A. 1. 25) 


式 (A.1.25) 就 是 著名 的 对 称 方 阵 正 交 分 解 。 
定义 A.1.14( 半 正定 方 阵 ) ” 设 A 是 一 个 n 阶 对 称 方 阵 , 如 果 对 任意 维 向 量 v 都 有 
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(1) 4 是 一 个 半 正 定 方 阵 。 
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, 则 称 A 是 一 个 半 正 定 方 阵 , 记 作 A>, 
A.1.7 假设 4 是 一 个 ” 阶 对 称 方 阵 , 则 以 下 命题 相互 等 价 : 


(2) 4 的 所 有 特征 根 均 非 负 。 
(3) EE n KIE W.E A—W'W, 


证 明 
等 价 的 。 


: 以 下 按照 (1) 二 (2),(2) 二 (3), 最 后 (3) 二 (1) 的 次 序 来 证 明 (1)、(2)、(3) 是 相互 


(1) 过 (2): 设 A 是 一 个 半 正 定 方 阵 。 任 取 A 的 一 个 特征 根 *。 设 v 是 4 对 应 的 特征 向 


量 , 即 4v 


三 Av。 根据 半 正 定 方 阵 的 定义 ,有 w "Av 宇 0。 然 而 ， 


v'Av = v" (Av)— A v* v =å | v ||? 


这 表明 % 宇 0。 由 此 证 明了 A 的 所 有 特征 根 均 非 负 。 
D> (3) : 设 A 的 所 有 特征 根 和 ,Xs,…,4, 均 非 负 。 定义 


Ag 55m 0 
AVE 一 1 Lo : 


0 wx AL 


根据 式 (A. 1. 25) 中 的 对 称 方 阵 正 交 分 解 , 如 果 定 义 W=AYV7, 则 A—WTW. 
G>): it A-WTW WHERE n Ep] fitv. 


这 说 明 A 
定理 
HWA 
推论 


v'Av = v'W'Wv = (Wv)* (Wv)— |Wvl|*z0 
是 一 个 半 正 定 方 阵 。 
A.1.7 提供 了 两 种 判断 方 阵 半 正 定性 的 法 则 。 第 一 ,如 果 4 的 最 小 的 特征 根 非 
正定 。 第 二 ,如 果 方 阵 A 可 以 写成 WW 的 形式 , 则 A 半 正 定 。 
A.1.8 VE ALB 为 两 个 半 正 定 n Br FE a0 为 一 个 正 实数 , 则 


(OD A+B 也 是 半 正 定 方 阵 。 
(2) aA 也 是 半 正 定 方 阵 。 


定义 


A.1.15( 严 格 正 定 方 阵 ) ”假设 A 是 一 个 n 阶 对 称 方 阵 ,如 果 对 任意 非 0 HY n E 


量 v KA vA v>, MEK A 是 一 个 严格 正定 方 阵 ,简称 正定 方 阵 , 记 作 A>0。 


定理 
推论 


T 


A.1.9 一 个 对 称 方 阵 A 是 正定 方 阵 的 充分 必要 条 件 是 4 的 所 有 特征 根 均 严 格 大 于 0。 
A.1.10 WR A 是 一 个 严格 正定 方 阵 ,B 是 一 个 半 正 定 方 阵 «a0 为 正 实数 , 则 


(OD A+B 是 一 个 严格 正定 方 阵 。 
(2) aA 是 一 个 严格 正定 方 阵 。 


A.2 微 积 分 


1. 一 元 微 积分 


定义 


A.2.1( 导 数 ) 假设 下 :R 一 R 是 一 个 实 函 数 。 对 z+" € R ,如 果 极 限 
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lim Road CA. 2.35 


存在 且 有 限 , 则 称 下 在 c" 处 可 导 , 也 称 为 可 微 ,并 将 式 (A. 2. 1) 中 的 极限 值 记 作 F Qa ) , 称 
(为 下 在 x" 处 的 导数 。 通 常 也 将 F(x" ) 记 作 9 Cen ) ,并 称 其 为 下 在 zx 处 的 微分 。 


如 果 对 任意 xz" ER ,FF 都 在 xz" 处 可 导 , 则 称 下 是 一 个 可 导 函 数 。 此 时 FF 也 是 一 个 实 
函数 , 称 为 F 的 导数 函数 。 在 意义 明确 的 前 提 下 也 简称 为 下 的 导数 。 
引 理 A.2.1 设 下 :R 一 R,G:R 一 R 是 两 个 可 导 函 数 , 则 有 


(FG) 4- GG )' = F'G) +G Go) (A. 2. 2) 
(FGOGG))! = F'G)0GG) 4 FG) G' Go) (A. 2.3) 
Fla) \ F'G2GG) — FG) G' (xz) 
[Sc] Gla)’ $5.2 
定义 A.2.2( 复 合 函 数 ) V F.GiR — R 是 两 个 实 函 数 ,定义 下 和 G 的 复合 函数 为 
HG) = G(FG)) (A. 2. 5) 


FMG f & ERICH WE H —G*F. 
定理 A.2.2( 链 式 法 则 ) i F.GIR —R 是 两 个 可 导 函 数 ,及 二 G°F HG 5 F 的 复合 函 
数 , 则 
H’ (x) = G'(FG))F'G) (A. 2. 6) 
WEBB. 根据 定义 4A.2.1, 对 任意 zx" ER， 
G(F(z))—G(F(x* )) 


和 


H' (x* )— lim 
tig PED- GCF(z* ))., Feo P(z* ) 
xa" Fier- Fan) m4 


， G(F(G))- GO (0 )) , | F(z)— F(x") 
Im Ft) FG") Lem 
iig CECCP y) , gue us (A. 2. 7) 


im 
et F(z)—F(z*) 
由 于 下 是 可 导 函 数 , 从 而 也 是 连续 函数 。 如 果 做 变量 代 换 uo F(z).v— F(x' ), 则 
xc GG Cu) 一 下 (人 ”3 . G(u)—GG) 
lm FO FG) B i 


G' (v) — G'(F(x' )) 


(A. 2. 8) 
结合 式 (A. 2.7) 5X CA. 2.8) 可 得 H' (x* ) 2G (F (z^ ))F'(x' )。 

TEX CA. 2. 6) 中 ,G (FGO ) Rm iR Zt G 的 导数 在 F(x) 处 的 取 值 。 所 以 计算 
G' (F) ) 时 是 先 对 G 求 导 , 得 到 G 的 表达 式 , 再 将 F(z) 代入 G 的 表达 式 。 

导数 的 几何 意义 是 函数 的 切线 斜率 。 如 果 一 个 函数 在 某 一 区 间 内 导数 均 非 负 , 则 切线 
斜率 均 为 正 ,函数 单调 递增 ;反之 ,如 果 导 数 均 非 正 , 则 切线 斜率 均 为 负 , 函数 单调 递减 。 

定理 A.2.3 i I— [ca,O] 为 一 个 区 间 。 如 果 对 任意 zxET 都 有 F'(z) 三 0, 则 对 任意 y. 
z€IBH»yzzdfüF(y)mErF(xz). 
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导数 的 几何 意义 的 男 一 个 应 用 是 函数 的 线性 近似 。 对 任意 x" € R ,由 于 导数 表示 的 是 

切线 斜率 ,所 以 函数 下 在 x" 处 的 切线 方程 为 
LG) = F(z* )- F'(x* )(z— x*) (A. 2.9) 

切线 L(x) 可 以 作为 F(x) 在 x" 附近 的 线性 近似 。 

定义 A.2.3( 二 阶 导数 ) ” 设 函 数 下 处 处 可 导 。 对 任意 s] ER ,如 果 FE c^ libn] Se. 
则 定义 天 在 z 处 的 导数 为 在 x" 处 的 二 阶 导数 , 记 作 F”(x* ), 也 记 作 FP (zx* )。 此 时 
称 下 在 x" 处 二 阶 可 导 。 

二 阶 导数 可 以 推广 成 更 一 般 的 nn 阶 导 数 : 对 任意 x" ER ,如 果 FP dg xt 处 可 导 , 则 
定义 F? (z* j= Jis 

定理 A.2.4( 泰 勒 展开 ) 设 下 是 一 个 2 十 1 p nI SERT. HL. F B3 Dp Sr BOSE PI LUST 
任意 x* ER， 


F(x) —F(x* )r F'(z* ra ) Eo (xr—2z') 4 


E? G^) (42 y bo(r— a Y) (A. 2. 10) 
定理 A.2.4 中 的 o( (x 一 zx" )") 表 示 在 x 一 x" 的 过 程 中 比 (zx 一 x" )" 更 快 收敛 到 0 的 
项 , 即 
lim Wr YY 
s key Yy 


定理 A. 2.4 给 出 了 用 nn 次 多 项 式 在 zx“ 的 邻 域内 近似 一 个 函数 下 的 公式 : 


dad y EE (ut yz) GD (e—a)? 
(n) .* 
EUG) aay CA. 2. 1) 


M F(x) 是 复杂 的 函数 时 ,用 式 (A. 2.10) 作 为 F(x) 在 x" 附近 的 线性 近似 不 够 精确 ,可 以 用 
式 (A. 2. 11) 来 简化 F(x)。 


2. 多 元 微 积分 
定义 A.2.4( 偏 导数 ) 设 F: 配 一 及 是 一 个 mm 元 实 函 数 。 对 任意 妆 二 (zx? az eta 0€ 
R" ,如 果 极 限 
P(zxisme sme TH )— Bf) 


z—uii 


(A. 2. 12) 


lim 
存在 且 有 限 , 则 称 F 关 于 第 i 个 分 量 可 导 ,并 将 式 (A. 2.12) 中 的 极限 值 称 为 在 x* 处 的 第 
i AS ie fe (x* )。 
定义 A.2.5 E) E FIR"—RJÉ— n JU XH F Ex’ — (af sri seer, )E 
R" 处 可 导 。 定 义 下 在 x* 处 的 梯度 为 如 下 的 向 量 : 


a 9 9 
VF(z" ) Es (e | F (x a (x^ )] 


(A. 2.13) 


H m 
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引 理 A.2.5 设 下 ,G:R" 一 及 是 两 个 元 实 函 数 , 则 


V(FGO 4-GGO ) 2 VFGO + NGGO (A. 2.14) 
V(FGO * G(x) )— G(x) * VF(x)+ F(x) * VGGO (4.2.15) 
F(x) G(x) * VF(Ox) — Fix) * G(x) 
59) GGO? cds 


5|38 A. 2.6. iE F:R'—RJÉ—^r n JUSCIRÉLG: R 一 及 是 一 个 一 元 实 函 数 ,五 天 G。 
下 , 则 
VH(x) = G’ (F(x)). VF(x) (A.2.17) 


假设 下 :R" 一 R 是 一 个 处 处 可 导 的 元 实 函 数 。 对 任意 1<i<n， arbo TE 


个 nn 元 实 函 数 。 对 Ij RE GOXET a 可 导 , 则 将 它 关 于 z ft fi cia e 
BIOS FRF zz 与 xz 的 二 阶 偏 导 数 。 

引 理 A.2.7 WE F; R'—R 是 一 个 处 处 二 阶 可 导 的 元 实 函 数 ,如 果 对 任意 i,j， a joa. Oft 
是 连续 函数 , 则 有 


z 


m x)= aon (A. 2, 18) 
引 理 A. 2. 7 中 的 结论 是 通过 交换 求 极 限 的 顺序 得 到 的 ,而 对 函数 二 阶 偏 导 的 连续 性 要 
求 正 是 交换 极限 合法 性 的 保证 。 
定义 A.2.6(Hessian 方 阵 ) iE F: R"—R 是 处 处 二 阶 可 导 的 元 实 函 数 ,将 nn 阶 方 阵 


¥F(x) = ( aF (x* )) 
920; Vete 


称 为 下 的 Hessian 方 阵 。 

FIH A. 2.7 的 一 个 直接 推论 是 : 当下 有 连续 的 二 阶 偏 导数 时 , 它 的 Hessian 方 阵 是 一 
个 对 称 方 阵 。 

定理 A.2.8 设 F:R" 一 R 是 一 个 处 处 三 阶 可 导 的 元 实 函 数 , 则 对 任意 的 x" ER" ,有 


FG —F(x")r(x—x*)" VF(x" H aa )* VF(x* )(x—x* )+ 


o(lx—x* 17) (A. 2. 19) 
根据 定理 A. 2. 8, 如 果 要 用 线性 函数 在 x* 的 邻 域 内 近似 元 实 函 数 下 , 则 可 以 采用 
FGO 2 F(x* )3- (x —x" )* VF(x" ) CA. 2. 20) 


如 果 要 用 二 次 函数 在 xx 的 邻 域内 近似 元 实 函 数 下 , 则 可 以 采用 
FG) ~ F(x* )+ (x —x* )" VF (x^ Hia F(t )((x—x*) 
(A. 2.21 


定义 A.2.7( 向 量 值 函数 ) ”如 果 下 是 一 个 从 R" 映 射 到 R” 的 函数 , 则 称 下 是 一 个 n 元 
m Rs] CER C. IEX x € R^. FGO — (Fi GO Fx), F,G0). FGOBffj s — 


360 


附录 A 


l 机 器 学 习 数 学 基础 


F(x) 都 是 一 个 元 实 孙 数 。 称 F(x) 为 F(x) 的 第 i 个 分 量 。 

定义 A.2.8( 向 量 值 函 数 的 梯度 ) 设 下 是 一 个 n 元 m 维 向 量 函 数 , 则 定义 nXm 和 矩阵 
VF (x) = (VF GO , VF; GO VE, GO ) 为 的 梯度 ,其 中 每 个 VF;(x) 都 是 一 个 列 向 量 , 即 n 
元 实 函 数 下;(x) 的 梯度 。 

定理 A.2.9( 向 量 值 复合 函数 链 式 法 则 ) ” 设 下 :R" 一 R" 是 一 个 n 元 m 维 向 量 值 函数 ， 
G:R">R?* 是 一 个 m 26 p Hm RIERS, H =G- F HF 与 G 的 复合 函数 , 即 H x)= 
G(F(x)). W 

VH (x) = VF (x) * NG(FGO ) CA. 2. 22) 

在 式 (A. 2. 22) rP VE GO J& F BER BE Ye x 处 的 取 值 ,是 一 个 nXm ABE VG (Fx) ) JE G 

的 梯度 在 F(x) 处 的 取 值 ,是 一 个 mX p 和 矩阵 ;它们 的 乘积 是 nXp 和 矩阵 VH GO. 


A.3 优化 理论 


A.3.1 凸 函 数 的 定义 及 判定 


定义 A.3.1( 凸 函数 ) 设 下 ;R" 一 R 是 一 个 n 元 实 函 数 。 如 果 对 任意 wu、wv 以 及 任意 
0 壹 a 三 1, 有 下 (au 十 (1 一 a)v) 二 aF(w) 十 (1 一 a)F(v), 则 称 下 是 一 个 凸 函数 。 

引 理 A.3.1 iE FiR—R 处 处 二 阶 可 导 , 则 下 为 凸 函 数 的 充分 必要 条 件 是 ,对 任意 xE 
RAZM FF(x) 宇 0。 

引 理 A. 3. 1 的 凸 函数 判定 法 则 可 以 推广 到 高 维 。 

定理 A.3.2 RAŽ FR >R 处 处 阶 可 导 , 则 下 为 凸 函数 的 充分 必要 条 件 是 ,对 任 
意 xER" 有 VF(x) 之 0。 

引 理 A.3.3 

CD 如 果 下 ;R" 一 RR 为 凸 函 数 , 则 对 任意 实数 a 二 0,aF 也 是 凸 函数 。 

(2) WR 下:R" 一 及 与 G:R" 一 及 均 为 凸 函 数 , 则 下 十 G 也 是 凸 函 数 。 

(3) 如 果 下 :R" 一 R 为 凸 函 数 ,G:R >R 为 单调 递增 凸 函数 ,那么 GF 也 为 凸 函 数 。 

证 明 : (1) 与 (2) 的 证 明 均 可 直接 由 定理 A. 3. 2 直接 推出 。 以 下 证 明 (3)。 用 互 简 记 
G*F, 

首先 来 看 n—1 的 情形 。 此 时 根据 定理 A. 2. 2 5| E A.2.1, 有 

H'() = G'(FG))F' (x)? -G'(FGO)F'G) (A.3.1) 

由 于 下 和 G 是 凸 函数 ,所 以 F(x) 宇 0,G (F(x)) 宇 0。 又 由 于 G 是 一 个 单调 递增 函数 ,所 
以 G (F(x) ) 宇 9。 由 此 可 知 , 式 (A. 3.1) 中 的 各 项 均 非 负 , 从 而 H(zx) 宇 0。 这 证 明了 H= 
G。F 是 一 个 凸 函 数 。 

再 来 看 n1 的 情形 。 对 任意 xER", 根 据 引 理 A. 2.6 中 的 多 元 复合 函数 链 式 法 则 ， 
VH GO) —G' (F(x))VF(x)。 此 处 VH(x) 是 一 个 向 量 值 函数 。 根 据 定义 A. 2. 8 中 关于 向 量 
值 函数 梯度 的 定义 ,再 结合 引 理 A. 2. 7 可 得 
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VHGO —G'(FGO)* VEG) * VF GO? +G (Fx) )* VFOGoO (A. 3. 2) 
由 于 对 任意 v€ER" ,都 有 v? VEGO * VF GOT v— (VF (x)Tv): 宇 0, 因 此 根据 定义 AL 1. 14. V 
F(x) * VF GO? 是 一 个 半 正 定 方 阵 。 由 于 G” (F(x) ) Z0. RIA G^ (Fœ) ) * VFEGO * VF)" 是 
一 个 半 正 定 方 阵 。 又 因为 下 是 凸 函 数 , 所 以 中 F(x) 是 半 正 定 方 阵 。 由 于 G CFG00280. R[ AG 
(F(x))。，VF(x) 是 一 个 半 正 定 方 阵 。 结 合 这 两 方面 可 知 , 式 (A. 3. 22 PV. H GO JE WE P 2E IE 
定 方 阵 的 和 ,所 以 YH(x) 也 是 半 正 定 方 阵 。 这 证 明了 五 天 G* 丰 是 一 个 凸 函 数 。 


A.3.2 无 约束 凸 优化 问题 
一 个 最 小 化 问题 有 如 下 形式 ， 


min F(x) 
AR: HG O0. i—1.2.—.m (GA. 3,3) 
其 中 ,下 是 一 个 n TERR, PA Vc] (E I] BS FEE ER. Ha Hostes Hn ABE n 元 实 函 
数 , 称 为 最 小 化 问题 的 约 东 函数 。 一 个 最 小 化 问题 的 任务 是 在 满足 全 部 m 个 约束 的 点 集中 
寻找 使 目标 函数 值 达到 最 小 的 点 。 
类 似 地 可 以 定义 最 大 化 问题 : 
maxF(x) 
AR: Hi(x) 委 0， 守 一 1 27 
一 个 最 大 化 问题 的 任务 是 在 满足 全 部 m 个 约束 的 点 集中 寻找 使 得 目标 函数 值 达到 最 大 
的 点 。 
最 小 化 问题 和 最 大 化 问题 统称 为 优化 问题 。 通 过 最 小 化 一 F(x) 可 达到 最 大 化 F(x) 的 
目的 。 因 此 以 下 只 讨论 最 小 化 问题 。 
优化 问题 可 以 按 其 约束 条 件 分 为 两 类 : 无 约束 优化 和 带 约 束 优化 。 无 约束 优化 问题 中 
没有 约束 条 件 ,其 任务 是 在 整个 空间 中 寻找 使 目标 函数 达到 最 小 的 点 。 
定义 A.3.2( 全 局 最 优 解 ) HE x € R^ ,如果 对 任意 wxER" «08 F(u) >F), WEK x 为 
F 的 一 个 全 局 最 优 解 .F(x) 是 全 局 最 优 值 。 
定义 A.3.3( 局 部 最 优 解 ) 给 定 x€ R"。 如 果 存 在 07-0 使 得 任意 满足 || u—x || «o 的 
u 都 有 下 (uw) 三 F(x), 则 称 x 为 的 一 个 局 部 最 优 解 ,F(x) 是 局 部 最 优 值 。 
局 部 最 优 值 是 目标 函数 在 一 个 小 邻 域内 的 最 小 值 。 显 然 , 全 局 最 优 一 定 是 局 部 最 优 ,而 
局 部 最 优 却 未 必 是 全 局 最 优 。 根 据 定义 A. 3.2, 优 化 问题 的 任务 就 是 寻找 目标 函数 的 全 局 
最 优 解 。 然 而 ,如 果 不 对 目标 函数 做 任何 假设 .大 多 数 优 化 算法 都 只 能 保证 输出 局 部 最 优 
解 。 如 果 目 标 函 数 在 可 行 域 上 只 有 一 个 局 部 最 优 值 , 则 这 个 局 部 最 优 值 必定 是 全 局 最 优 值 。 
由 于 凸 函 数 只 有 唯一 局 部 最 优 值 ,因此 当 目 标 函 数 是 凸 函 数 时 ,优化 算法 获得 全 局 最 优 值 。 
定义 A.3.4( 凸 优化 ) 如果 一 个 无 约束 优化 问题 的 目标 函数 F 是 一 个 凸 函数 , 则 称 其 
为 无 约束 凸 优化 问题 。 如 果 一 个 带 约束 优化 问题 的 目标 函数 下 是 一 个 凸 函 数 , 且 约 束 函 数 
H: GO HH h PRÉCISE CL im) , 称 其 为 一 个 带 约 束 凸 优化 问题 。 
定理 A.3.4 无 约束 凸 优化 问题 存在 唯一 的 局 部 最 优 值 ,从 而 无 约束 凸 优化 问题 的 任 
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何 局 部 最 优 解 都 是 全 局 最 优 解 。 

证 明 : 对 给 定 的 凸 目标 函数 下 , 设 uso 均 为 下 的 局 部 最 优 解 。 以 下 证 明 FG 一 FCu)。 
用 反 证 法 ,不 妨 设 FDF (v), BT v 是 一 个 局 部 最 优 解 ,根据 局 部 最 优 解 的 定义 ,存在 
0>0, 使 得 对 任意 满足 | w— v || 0 B w f F(w)ZFGOO. XN limau + (1—a) v= v. 
以 一 定 存在 一 个 足够 小 的 a* ,使 得 Da*wu 十 (1 一 a* )v—v || à, W w= a^ wu 十 (1 一 a* ) v. 
可 得 || w— v || 0. ARIE v 是 局 部 最 优 解 的 假设 , 必 有 下 (w) 宇 F(v)。 又 由 于 下 为 是 函数， 
所 以 

Fiw) a* F(u)t- (1—a* )F(v)a' F(v)- (1—a* )F(v)— F(v) 

这 是 一 个 矛盾 。 因 此 一 定 有 F(u)==F(wv)。 

引 理 A.3.5 设 下 :及 一 R 为 一 个 一 元 可 导 凸 函数 。 则 xER 为 下 的 最 优 解 的 充分 必要 
条 件 为 F'(x) 一 0。 

证 明 : 首先 看 条 件 的 必要 性 。 设 x 为 F 的 最 优 解 , 则 对 任意 xx 都 有 


RD RD as CA. 3. 4) 
可 一 
ERA. 3. A) rf u 从 右 侧 趋 于 x, 可 得 右 导 数 F4 (x) 壹 0。 然而 对 任意 ux 又 有 
F(u)—FGO c9 (A. 3. 5) 
u—x 


在 式 (A. 3. 5) P u 从 左 侧 趋 于 x, 可 得 左 导数 F- GO 0. BINOS F, FC) — 
F GO —F' (x), Bl F'(x) —0, 

再 来 看 条 件 的 充分 性 。 假定 F(x) —0. KAA 下 为 凸 函数 ,所 以 对 任意 的 wx, 都 有 
FG0ZFGO--F'GO (wu 一 x)。 由 此 可 知 , 当 F(x)==0 时 , 必 有 下 (wu) 宇 F(x)。 也 就 是 说 ， 
x 为 下 的 最 优 解 。 

引 理 A. 3. 5 的 结论 可 以 推广 到 高 维 。 

定理 A.3.6 对 于 一 个 元 可 微 凸 函 数 政 :R" 一 R ,xE R" 为 下 最 优 解 的 充分 必要 条 件 
为 下 (x) 二 0。 其 中 ,0 表示 各 分 量 均 为 0 的 nn 维 向 量 。 

目标 函数 的 凸 性 保证 了 最 优 值 的 唯一 性 ,但 是 并 不 保证 最 优 解 的 唯一 性 。 

定义 A.3.5( 严 格 凸 函数 ) 设 正 为 一 个 凸 函 数 。 如 果 对 任意 uv € R'& 0<a<1, A 
F(au - (1—a) v) aF (u) d- (1—a)F (v), WEK 下 为 一 个 严格 凸 函 数 。 

定理 A.3.7 设 下 为 一 个 严格 凸 函数 , 则 minF(x) 有 唯一 最 优 解 。 

证 明 : 用 反 证 法 。 如 果 结 论 不 成 立 , 则 至 少 存在 两 个 最 优 解 ww。 根据 定理 A. 3.4 的 
结论 ,F(u)= 二 F(v)。 设 w==u/2 十 v/2。 由 下 为 严格 凸 函数 ,可 知 


F(w)— FG LFO)- F(u) 
这 与 是 最 优 解 矛 盾 。 
引 理 A.3.8 设 下 :R 一 R 处 处 二 阶 可 微 , 则 下 为 严格 凸 函数 的 充分 必要 条 件 是 对 任意 
x€R/& F'G)70, 
定理 A.3.9 设 函 数 下 :R" 一 及 处 处 二 阶 可 微 , 则 E. 为 凸 函 数 的 充分 必要 条 件 是 对 任意 
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XER", 有 VF(x)>0。 

推论 A.3.10 如 果 下 ;R" 一 R 是 一 个 严格 凸 函数 ,G:R" 一 R 是 一 个 帅 函 数 ,a 二 0 是 一 
个 正 实数 , 则 有 

(OD FHG 是 一 个 严格 是 函数。 

(2) aF 是 一 个 严格 凸 函 数 。 


A.3.3 带 约束 凸 优化 问题 


定义 A.3.6( 拉 格 朗 日 函数 ) 给 定式 (A. 3.3) 中 的 带 约 束 优化 问题 ,对 给 定 xE R" 以 及 
À = (à Apos) ER” ,NA 0, 定 义 


L(x4À )= FGO + DAH (x) CA. 3.6) 
i=l 


HRTF F AKH H K PEA ASARRE H: OO SEDE BS BL H RETF 
定义 A.3.7( 对 偶 函 数 ) 定义 G(X ) 二 minL(x,4 ) 为 下 的 对 偶 函 数 。 


x€R" 
定义 A.3.8( 对 偶 优 化 问题 ) 称 如 下 优化 问题 
maxG (à ) 


ZJWIASO. i—1.2.—.m (3:7 
HACA. 3.3) 中 凸 优化 问题 的 对 偶 优化 问题 。 式 (A. 3. 3) 中 的 问题 称 为 原始 问题 。 
引 理 A. 3. 11( 弱 对 偶 理 论 ) x 为 原始 问题 的 最 优 解 ,XA" 为 对 偶 问题 的 最 优 解 。 令 
f*=F(x’),g’ =G"), W gsf". 
WEBB: 根据 g* 的 定义 ,对 任意 x, 有 g" SGA SLA), AEE 
gL Ear At (A. 3. 8) 
LAF x* 与 1 分别 为 原始 问题 的 可 行 解 与 对 偶 问 题 的 可 行 解 ,所 以 对 任意 ;都 有 
A? Hi(x' ) 魏 0。 因此 


L(x',AÀ' )= F(x) D ARH: GO F(x! )= f^ CA. 3. 9) 
i=l 


综合 式 (A. 3.8) 和 式 (A. 3.9), Tf g" «f^. 

定理 A.3. 12( 强 对 偶 理 论 ) 若 存 在 xER" 使 得 Hi; G0 0.11.2. m LUE [H3 [8] 18 
最 优 值 g* 与 原始 问题 最 优 值 广 满足 g 一 广 。 

定理 A. 3. 12 中 的 条 件 被 称 为 Slater 条 件 , 它 是 以 证 明 这 一 定理 的 数学 家 命名 的 。 如 果 
Slater 条 件 得 到 满足 , 即 可 行 域 包含 至 少 一 个 内 点 , 则 原始 问题 与 对 偶 问 题 有 完全 相同 的 最 
优 值 。 绝 大 多 数 实际 应 用 中 的 凸 优化 问题 都 满足 Slater 条 件 , 从 而 定理 A. 3. 12 中 的 结论 都 
成 立 。 

这 一 定理 的 意义 如 下 : 车 原始 问题 中 的 约束 条 件 使 得 求解 困难 ,而 相应 的 对 偶 问 题 较 
易 求解 , 且 已 知 对 偶 问题 的 最 优 解 和 4" , 则 可 以 将 问题 转化 为 求解 无 约束 优化 问题 ; min L Gc. 


z€R" 


人 )。 根 据 定义 A. 3.7 和 8g ”的 定义 可 知 : min LxA ) 的 值 等 于 G(4* )—g^ 。 再 根据 定 


ER 
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H A. 3.12, 此 解 恰 为 原始 问题 带 约 束 的 最 优 解 。 
定理 A. 3.13(KKT 条件 ) 设 原始 问题 满足 Slater 条 件 ,假设 x 55A" 分别 为 原始 问题 
与 对 偶 问 题 的 可 行 解 , 则 它们 是 最 优 解 的 充分 必要 条 件 如 下 : 


(OD 稳定 性 : Va) + Dar VWH") — 0, 
i=l 


(2) 互补 松弛 性 : A7 H; Gc )=0,i=1,2;, m. 
WEBB. 首先 证 明 KKT 条 件 的 必要 性 , 即 如 果 x 与 1 分别 为 原始 问题 与 对 偶 问 题 最 优 
解 , 则 它们 满足 KKT 条 件 。 令 L(x.4) 为 下 的 拉 格 朗 日 函数 ,G(X) 为 对 偶 函数 ,并 令 f* = 
Fx ) 及 g" =G") 。 由 于 Slater 条 件 成 立 , 所 以 根据 定理 A. 3.12 A f^ —g' MARHE 
g' 的 定义 ,有 : 
g' —GQ') A Wi ) & LG A 2 & FG) — f CA, 3. 10) 
因此 , 式 (A. 3.10) 中 所 有 的 小 于 或 等 于 号 均 应 为 等 号 。 由 此 可 知 : 


minL (x.À* )= L(x" à") CA. 3. 11) 
z€R" 
L(x'.A' )— F(x') CA. 3.12) 


式 (A. 3. 1 BEI x * 是 无 约束 优化 问题 minL(x,X" ) 的 最 优 解 。 根 据 定理 AL 3. 4.x IV 
Ml VL (x' A" ) 50, IEJEVL (x" A") 得 


0 = L(x" .À* )— VF(x' )- D ar VH; (x* ) CA. 3. 13) 
i=] 


再 来 看 式 (A. 3.12). 因为 L(x* A) = Fx") + Swa ), 且 对 任意 i 均 有 


A? HiCw* ) O0. Br LASK CA. 3.12) 成 立 的 唯一 可 能 性 是 对 任意 i 均 有 A; H;(w* ) 二 0。 
再 证 明 KKT 条 件 的 充分 性 。 假 定 x' 与 满足 KKT 条 件 , 只 需 证 明 f" —g'. HS 
条 件 (1) 以 及 定理 A. 3.6 可 知 ,x* 必 为 无 约束 优化 问题 min L (x,X" ) 的 最 优 解 , 从 而 
x€R" 


L(x'.À')—-GQ'0-g CA. 3. 14) 


另 一 方面 ,根据 条 件 (2), 有 》 ACH GU — 0, 从 而 


Lar Anje ra rA ep (A. 3. 15) 
i=l 


综合 式 (A. 3. 14) 与 式 (A. 3. 15) 就 得 到 f* = 二 g*。 
式 (A. 3. 16) 中 带 等 式 约束 条 件 的 优化 问题 是 一 类 特殊 的 带 约束 优 化 问题 。 


min F(x) 
AW: Hx) <0, i=1,2,; sm 
Ejx)—0. j=1,2,…,k (A. 3. 16) 


假设 约束 Hz GO 0 对 应 的 拉 格 朗 日 乘 子 为 A;(i 二 1,2,…,m) ,约束 E; GO — 0 对 应 的 
拉 格 朗 日 乘 子 为 BG 二 1,2,…,k) MCA. 3.16) 的 拉 格 朗 日 函数 有 如 下 形式 : 
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m k 
L(z p= F DAH + $1 B E;GO 
i=l 


定义 G(X,B )—minL (x B) , 则 式 (A. 3.16) 的 对 偶 问题 为 
HAEG GA IB» 
ZJWIASZO. i—1.2.-—.m (A. 3. 17) 

TESK CA. 3. 17) P Jet fr In RR As Ap CZ RA TOS IZ B LS BU] H RET AP LE f i o 
约束 条 件 的 拉 格 朗 日 乘 子 B, 不 受 约束 。 

推论 A.3. 14( 带 等 式 约束 的 KKT 条 件 ) 设 原始 问题 式 (A. 3. 16) 满 足 Slater 条 件 , 假 
WE x* 5 (A* Bt ) 分 别 为 原始 问题 与 式 (A. 3. 17) 中 的 对 偶 问 题 的 可 行 解 , 则 它们 是 最 优 解 
的 充分 必要 条 件 是 


m k 

COD 稳定 性 : Va D 47 NHi(x* )- 9) Bj Ea )= 0. 
i=l j=1 

(2) 互补 松弛 性 : A7 Hi (x* )==0,i==1,2,*…,m。 


A.4 概率 论 简 介 


1. 概率 论 基 本 概念 

定义 A.4.1( 样 本 空间 ) ”随机 试验 中 的 每 一 个 可 能 出 现 的 试验 结果 称 为 这 个 试验 的 一 
个 样本 点 。 全 体 样 本 点 组 成 的 集合 称 为 这 个 试验 的 样本 空间 , 记 作 2 。 

定义 A.4.2( 随 机 事件 ) 样本 空间 2 的 任 一 子 集 A 称 为 随机 事件 ,简称 事件 。 出 现 属 
于 事件 A 的 样本 点 时 则 称 事件 A 发 生 。 

定义 A.4.3( 事 件 的 概率 ) ”对 任意 样本 点 wEQ, 用 Pr(w) 表 示 w 出 现 的 概率 。 对 任意 
FF ASO ,定义 A 的 概率 为 


Jigi 


Pr(A)= >) Pr(w) (A.4.1) 


wEA 
引 理 A.4.1 设 0 为 样本 空间 。 
(D Pr(Z)—0,Pr(0)—1. 
(2) 设 A 和 B 是 两 个 事件 , 则 PHLAUB) —Pr(A) -Pr(B)  PrCAC B). 
推论 A.4.2 设 A 和 B 是 两 个 事件 ,ANMB= 名 , 则 Pr(AUB)=Pr(A) 十 Pr(B)。 
定义 A.4.4( 条 件 概率 ) A LB 是 两 个 事件 ,在 事件 B 发 生 的 条 件 下 发 生 事件 
A 的 概率 称 为 A 基于 B 的 条 件 概 率 , 记 为 Pr(A1B) , 且 


PA | B= PAD CA. 4,2) 


定义 A.4.5( 独 立 事件 ) AMB 是 两 个 事件 。 如 果 Pr(ALB) —Pr(A) , 则 称 A MB 
是 相互 独立 的 事件 。 
推论 A.4.3 I A RI B JV T TH Hor BOSE (E Pr(ANB)=Pr(A) * Pr(B)。 
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2. 随机 变量 与 分 布 

定义 A.4.6( 随 机 变量 ) 设 随 机 试验 的 样本 空间 为 2。 若 对 任意 样本 点 wE 0, 都 有 一 
个 实数 s(o) 与 之 对 应 ,就 可 以 得 到 一 个 定义 在 Q 上 的 样本 点 的 实 函 数 s(o) , 称 &(w) 为 随机 
变量 , 简 记 为 6. 

定义 A.4.7( 随 机 变量 数 乘 ) 设 & 是 一 个 随机 变量 。a ER 为 实数 。 定 义 一 个 新 的 随机 

变量 7, 其 中 对 任意 样本 wH 7(o) 一 as(w) WEH ERF a 的 数 乘 , 记 作 =at. 

定义 A.4.8( 随 机 变量 的 加 法 ) 设 生 与 名 是 两 个 随机 变量 。 如 果 对 任意 样本 w, 随 机 变 

量 7 都 满足 7(ow) 王 名 (w) 十 名 (o), 则 称 其 为 与 名 的 和 , 记 作 =i tHE. 
定义 A.4.9( 随 机 变量 的 乘法 ) 如果 对 任意 样本 w, 随 机 变量 7 iE m (9) —6 (9) * 
& Co) , 则 称 其 为 与 与 名 的 积 , 记 作 7 一 名 名 。 

取 值 均 为 非 负 整数 ( 可 数 集 ) 的 随机 变量 称 为 离散 型 随机 变量 。 设 5 是 一 个 离散 型 随机 

变量 。 定 义 ps(&) 王 Pr(e(o) 一 上 ) ,并 将 序列 {ps(0) ,ps(1) ,ps(2),…} 称 为 8 的 概率 分 布 。 

以 下 是 常用 的 离散 型 随机 变量 的 分 布 。 

* 伯 努 利 分 布 。 设 在 一 次 试验 中 ,事件 A 发 生 的 概率 为 p。 定 义 随机 变量 8 为 一 次 试 
验 中 事件 A 发 生 的 次 数 , 则 & 的 取 值 或 者 为 0, 或 者 为 1。 随 机 变量 的 概率 分 布 为 
{1 一 p,p}。 将 这 样 的 试验 称 为 伯 努 利 试 验 。 随 机 变量 的 概率 分 布 称 为 伯 努 利 
分 布 。 

。 二 项 分 布 。 设 在 一 个 伯 努 利 试 验 中 ,事件 A 发 生 的 概率 为 p。 独 立 重复 该 伯 努 利 试 
验 n 次 ,并 定义 随机 变量 & 为 事件 A 发 生 的 次 数 。& 的 可 能 取 值 为 0,1,…,n。 对 应 
的 概率 由 二 项 分 布 给 出 : 


n 
p:(k) Ca D)". k=0,1,.n 


随机 变量 的 概率 分 布 称 为 二 项 分 布 , 记 为 B,.，。 
* 泊 松 分 布 。 若 随机 变量 可取 一 切 非 负 整数 值 , 且 
MOSES urs k = 0,1,2,1 
随机 变量 E 的 概率 分 布 称 为 泊 松 分 布 , 记 为 Poisson; 。 
dt 是 一 个 离散 型 随机 变量 , 且 其 概率 分 布 为 p:。 以 Z “表示 非 负 整数 集 。 对 任意 实数 
Zz, 将 Felzx) 二 > ps(k) 称 为 离散 型 随机 变量 & 的 分 布 函数 。 
REZE kr 
取 值 为 连续 实数 的 随机 变量 称 为 连续 型 随机 变量 。 
定义 A.4.10( 分 布 函 数 ) ” 设 & 是 一 个 连续 型 随机 变量 ,定义 的 分 布 函数 F:R 一 
[0,1] 如 下 : 对 任意 xzER ,定义 Fe(z) 王 Pr(e(w) 生 z)。 
分 布 函数 F: 是 随机 变量 & 的 取 值 落 于 区 间 (一 =,z] 的 概率 ,所 以 有 


Fg) = | Precos 2 CA. 4. 3) 
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根据 式 (A. 4. 3) ,可 以 近似 地 认为 Pr(e(w) =r) — FG da, 3X H dz 是 一 个 无 穷 小 量 。 
定义 A.4.11( 密 度 函 数 ) 设 8 是 一 个 连续 型 随机 变量 ,F: 是 & 的 分 布 函 数 ,定义 fel) = 
F(X) 为 连续 型 随机 变量 8 的 密度 函数 。 
以 下 是 常用 的 连续 型 随机 变量 的 分 布 : 

。 均匀 分 布 。 设 a 和 4 为 两 个 有 限 实 数 且 “<0。 密 度 函 数 
fis ED x € [a.b] 
0. x € [a.b] 

对 应 的 随机 变量 x 取 值 为 区 间 [a.5] 上 的 每 一 点 的 可 能 性 都 相同 。 这 样 的 分 布 称 为 

KE [a,6] 上 的 均匀 分 布 。 

。 正 态 分 布 。 服 从 正 态 分 布 的 随机 变量 x 的 取 值 区 间 为 (一 <, 十 cc) ,密度 函数 为 
jüpe i gu 


e 


2ra 


其 中 /与 5 为 常数 。 正 态 分 布 记 作 N (u0). 


3. 期 望 . 方 差 与 协 方差 
定义 A.4. 12( 离 散 型 随机 变量 的 期 望 ) 设 是 一 个 离散 型 随机 变量 ,并 设 p. 是 它 的 概 
率 分 布 。 定 义 《 的 期 望 为 


ELE] = Dk. pelk) (A.4.4) 
k=0 


在 式 (A.4.4) 中 , 求 和 的 每 一 项 kps(k) 是 & BOCA VA € 取 该 值 的 概率 ,由 此 可 见 ， 
期 望 是 随机 变量 的 平均 取 值 。 

定义 A.4. 13( 连 续 型 随机 变量 的 期 望 ) 设 是 一 个 连续 型 随机 变量 ,并 设 f: 是 它 的 密 
度 函 数 。 定 义 & 的 期 望 为 


E[é]= | zfs)dr CA. 4. 5) 


定理 A. 4.1( 期 望 的 线性 性 质 ) 

(OD 设 t 是 一 个 随机 变量 ,a€R 为 实数 , 则 Eag] 二 aE[&]。 

(2) 设 & 与 镶 是 两 个 随机 变量 , 则 E[& *&]—-E[& ] TE[& ]. 

定义 A.4.14( 独 立 随机 变量 ) t ELI E AAEN Bt ID ROSHEERE mm ,zzER ,事件 
Ai — (0:6 (v) Sui) HUR fF. A; = {w: (o) 近 zz} 都 是 独立 的 , 则 称 扣 和 名 为 独立 的 随机 

定理 A.4.2 设 和 与 名 是 两 个 独立 的 随机 变量 , 则 E[5 5] —E[&5] * E[&]. 

定义 A.4.15( 方 差 与 标准 差 ) 设 $ 是 一 个 随机 变量 ,定义 的 方差 为 Vare) =E 
ELED] IFEN E 的 标准 差 为 6 (£) = VVar). 

(£—E[6] ) HR KIE E AE 5 39] 2B AS i ES BE ,而 方差 则 是 该 偏离 度 的 期 望 值 。 

定理 A.4.3 ix & 与 名 是 两 个 独立 的 随机 变量 , 则 Var( 和 十 色 )= 二 Var() 十 Var(&)。 

以 下 是 常用 的 随机 变量 分 布 的 期 望 和 方差 。 
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伯 努 利 分 布 的 期 望 和 方差 。 如 果 随 机 变量 $ 的 概率 分 布 是 伯 努 利 分 布 B,, 则 

E[£]— 0* (1— p)t-1* p— p 

Var(£) = (0— p)! (1— p) (0— p)' p — b(1— p) 
二 项 分 布 的 期 望 和 方差 。 若 6 6 en 6 JE n rH RO ELSE RUE A38 B, 的 随机 变 
量 , 则 £—6 tHE Heti RIO — 398 4 Bn ,的 随机 变量 。 因 此 有 


E[6£]  3]E(&)- np 
i=l 


Var(£)— Dvar(s)= np(l—p) 
均匀 分 布 的 期 望 和 方差 。 如 果 随 机 变量 8 的 分 布 为 区 间 [a,5] 上 的 均匀 分 布 , 则 


E[£]— el 
Var(£)— la 
。 正 态 分 布 的 期 望 和 方差 。 如 果 随 机 变量 服从 正 态 分 布 N (Queso) , 则 
E[é]= x 
Var[£] = ø> 
定义 A.4.16( 协 方差 ) 5 6 AUT BÉULAE E. E 
Cov(&.& )= E[(& —E[&]) (& —E[&])] CA. 4. 6) 
H 与 名 的 协 方差 ,并 定义 
1(6 名) 一 一 ovCee) CA. 4, 7) 
vVar (ŝi ) Var(&) 


Hj 6 5 & WIES ACC 

An AIKE & UH ECL 00560 20s MILI 6, XC IHE 6s 相应 减 小 , 则 
MEE) 0, 

3738 A. 4. 4. VE 6 53: 6 HAA BE LAE dtm (5.6 ) A E MEL RR ALORS C. UL — 1— 
97(6.& ) €1lOfF B 

(D 7(8.&)-0 的 充分 必要 条 件 为 &5 & hw. 

(2) q(&.&) —1 的 充分 必要 条 件 为 名 一 所。 

(3) 7(&.&)——1 的 充分 必要 条 件 为 &— 5.5 

4. Hoeffding 不 等 式 

定理 A. 4.5(Hoeffding FER) Ù 0 «0, 40,24 m 个 独立 同 分 布 的 随机 变量 。 假 设 
对 任意 i 有 EE[0] 二 4 以 及 Pr(0x20,1) —1. WD EE EIE SCC c A 

iXa-a--2Jj« Qe me (A. 4. 8) 


zi mee 

可 以 用 语言 来 描述 Hoeffding 不 等 式 如 下 : m 个 独立 同 分 布 随 机 变量 的 平均 值 与 期 望 
值 之 间 的 差别 大 于 c 的 概率 随 着 c 和 m 的 增 大 以 指数 级 减 小 。Hoeffding 不 等 式 是 许多 应 
用 中 用 平均 值 来 近似 期 望 值 的 理论 依据 。 


m 
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学 习 工 具 库 


Python 是 一 种 面向 对 象 的 解释 型 程序 设计 语言 。 因 其 具有 简洁 性 、 易 读 性 以 及 可 扩展 
性 的 特点 ,目前 是 最 受 欢 迎 的 程序 设计 语言 之 一 。 由 于 Python 是 人 工 智能 技术 框架 的 基础 
语言 ,支持 许多 机 器 学 习 工 具 库 , 例 如 算法 库 Sklearn、 神 经 网 络 算法 平台 TensorFlow 和 
OpenAT 虚拟 现实 平台 ,因而 本 书 中 的 全 部 算法 都 用 Python 语言 来 描述 。B. 1 介绍 Python 
的 基本 语法 与 功能 。 

SciPy 是 Python 中 的 科学 计算 工具 库 ,其 中 有 3 个 最 常用 的 工具 包 : 一 是 NumPy 工具 
包 , 提 供 方便 的 数组 操作 ;二 是 Matplotlib ,提供 作 图 功能 ;三 是 Pandas, 提 供 各 项 数据 观察 
与 处 理 功 能 。B. 2 介绍 SciPy 的 基本 知识 。 

Sklearn 是 Python 中 的 机 器 学 习 工 具 库 ,包含 绝 大 多 数 机 器 学 习 算法 以 及 大 量 经 典 数 
据 集 。 本 书 中 的 算法 实现 采用 与 Sklearn 工具 库 中 同名 的 类 与 接口 ,对 算法 的 调用 方式 与 
Sklearn 工具 库 的 使 用 完全 一 致 。B. 3 介绍 Sklearn 工具 库 。 

Sklearn 工具 库 中 不 包括 神经 网 络 的 相关 算法 。TensorFlow 是 目前 最 常用 的 神经 网 络 
学 习 平台 之 一 。 本 书 在 深度 学 习 与 强化 学 习 的 章节 中 都 采用 了 TensorFlow 平台 。B. 4 介 
绍 TensorFlow 的 基本 设计 理念 。 


B.1 Python 语言 基础 


1. Python 程序 与 IDE 
在 计算 机 上 安装 Python 后 , 在 命令 行 提示 符 $ 后 输入 python, 将 直接 进入 Python, 
在 命令 行 Python 提示 符 汪 >> 后 输入 printCHello World! ”), 可 以 看 到 ,屏幕 上 输出 “Hello 
World!”, 其 中 print 是 Python 的 一 个 常用 函数 ,其 功能 就 是 输出 括号 中 的 字符 串 。 
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编写 Python 程序 是 使 用 Python 的 另 一 个 常用 方法 。 用 文本 编辑 器 编写 一 个 . py 后 级 
的 文件 ,例如 hello. pye Æ hello. py 中 写 和 人 如 图 B. 1 所 示 的 程序 并 保存 。 


1 print('Hello World!') 


图 B.1 £TE["Hello World! "BS Python 程序 


退出 文本 编辑 器 ,并 在 命令 行 提示 符 $ 后 输入 python hello. py 来 运行 该 程序 ,可 以 看 
到 屏幕 上 输出 “Hello World!”, 这 就 是 一 个 最 简单 的 Python 程序 。 

有 许多 集成 的 开发 编辑 器 可 用 于 方便 地 编辑 和 调试 Python 程序 。Eclipse 和 Jupyter 的 
IPython Notebook 是 最 常用 的 Python 编辑 器 。 除 此 之 外 ,还 有 Windows 上 的 Visual Studio 和 
Mac OS 上 的 Xcode。 读 者 可 以 选用 自己 喜欢 的 编辑 器 来 编写 和 调试 Python 程序 。 


2. 变量 与 基本 运算 

Python 中 的 变量 与 其 他 程序 设计 语言 中 的 变量 类 似 , 都 对 应 一 段 内 存单 元 ,可 以 用 于 存储 
任何 类 型 的 数据 。 常 用 的 变量 类 型 有 整 型 . 浮 点 型 .字符 串 型 与 逮 辑 型 4 种 。Python 中 无 须 显 
式 声明 变量 的 数据 类 型 。 解 释 器 会 在 对 变量 赋值 时 自动 判断 变量 应 当 具 有 的 类 型 。 

变量 之 间 可 以 进行 各 类 运算 。 常 用 的 运算 分 为 两 类 : 算术 运算 与 逻辑 运算 。 算 术 运 算 
包括 加 \ 减 、 乘 \ 除 、 乘 方 等 ,逻辑 运算 包括 与 ,或 和 非 运 算 。 

Python 中 具有 自 加 、 自 乘 与 自 除 等 运算 方式 。 例 如 a 十 二 1 就 是 一 个 自 加 运算 ,等 价 于 
a 一 a 十 1。 

人 逻辑 表达 式 是 与 逻辑 运算 紧密 相连 的 概念 。 一 个 逻辑 表达 式 的 取 值 可 以 蚌 真 或 者 假 。 
常用 的 逻辑 表达 式 有 相等 (= = ) .不 等 (!==)、 大 于 (二 )、 大 于 或 等 于 (二 =)、 小 于 (二 ) 以 及 
小 于 或 等 于 (二 =)。 


3. 数组 

数组 是 一 段 连续 的 内 存 空 间 , 用 于 存储 类 型 相同 的 一 组 数据 。 数 组 的 特点 是 可 以 通过 
下 标 来 索引 数组 中 的 数据 。 用 AL 一 1] 表 示 数 组 A 的 最 后 一 个 元 素 是 Python 特有 的 索引 方 
式 。 运 行 图 B. 2 中 的 Python 程序 可 得 b==1, c=2, d—3. e—3. 


EL 2, 3] 

b, c, à-A 0], A 1], A 2] 
eA - 1] 

print (5, c, d, e) 


WN 


图 B.2 Python 中 的 数组 应 用 示例 程序 


Python 可 以 对 数组 进行 切片 操作 , 即 获取 数组 中 下 标 连 续 的 一 段 数据 。 语句 A[i:j] 对 
数组 A 进行 了 切片 操作 。 这 一 语句 返回 数组 A 中 下 标 为 i,i 十 1,…,j 一 1 的 数据 。 

数组 中 元 素 个 数 又 称 为 数组 的 长 度 。 用 len 函数 可 以 计算 数组 长 度 。 用 append 函数 可 
以 向 数组 的 末尾 添加 元 素 。 用 十 可 以 将 两 个 数组 连接 成 一 个 数组 。 
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在 Python 中 ,可 以 用 赋值 号 = 对 数组 进行 浅 复制 。 赋 值 号 = 将 一 个 数组 A 浅 复制 成 
另 一 个 数组 B。 浅 复制 操作 实质 上 只 是 给 数组 A 起 了 另外 一 个 名 字 B, 相 当 于 A 的 一 个 “ 别 
名 ”。 数 组 B 与 数组 A 表示 的 是 同一 段 内 存 空间 ,因而 是 同一 个 数组 。 对 数组 B 的 操作 等 
同 于 对 数组 A 的 操作 。 要 实际 复制 一 个 数组 ,需要 深 复制 操作 。Python 标准 库 提供 了 深 复 
制 函数 deepcopy。 在 Python 语言 中 ,正确 理解 深 复制 与 浅 复制 的 区 别 十 分 重要 。 

二 维 数组 是 一 维 数组 的 推广 , 它 对 应 数学 上 的 矩阵 。 二 维 数组 的 每 一 个 元 素 都 是 一 个 
数组 , 它 的 索引 是 一 维 数组 索引 的 推广 。 如果 A 是 一 个 二 维 数组 , 则 A[i] D] ERR A. 中 的 
第 i 个 数组 的 第 j 个 元 素 。 


4. 函数 

函数 是 一 个 完成 某 项 任务 的 程序 块 。 函 数 的 用 途 在 于 提高 程序 的 模块 化 与 可 重用 性 。 
Python 中 的 函数 用 def 关键 字 return 关键 字 加 上 函数 体 缩 进 的 方式 来 表示 。 

图 B. 3 是 Python 中 的 函数 的 示例 。 


def f(a, b): 
cœ (a+b) * (a-b) 
retum c 


=f (1,2) 


i 
Z 
3 
4 
5 
6 print(s) 


图 B.3 Python 中 的 函数 的 示例 


可 以 指定 函数 输入 参数 的 默认 值 。 如 果 指 定 了 函数 某 个 输入 参数 的 默认 值 , 则 在 调用 
函数 时 可 以 不 必 指 出 该 参数 的 值 。 函 数 将 自动 使 用 默认 值 。 即 使 函数 指定 了 某 个 输入 参数 
的 默认 值 ,在 调用 这 个 函数 时 也 可 以 再 指定 该 参数 的 值 ,此 时 函数 将 忽视 默认 值 而 使 用 指 
定 值 。 

函数 的 参数 可 以 是 整 型 浮 点 型 .字符 串 型 及 逻辑 型 4 种 基本 类 型 ,也 可 以 是 数组 、 哈 希 
表 、 类 的 对 象 等 复合 类 型 。 

如 果 函 数 的 参数 是 基本 类 型 , 则 Python 采用 值 传递 的 方式 来 传递 参数 。 采 用 值 传递 
时 ,函数 体 中 对 参数 所 做 的 改变 不 会 反映 到 函数 体 之 外 。 当 函数 的 参数 是 非 基 本 类 型 的 参 
数 时 ,Python 则 采用 地 址 传递 的 方式 来 传递 参数 ,此 时 在 函数 体内 对 参数 的 修改 将 保留 在 
参数 中 。 


5. 条 件 语句 

条 件 语句 if…else… 的 功能 是 根据 逻辑 表达 式 的 取 值 来 确定 程序 的 走向 。 在 Python 中 
用 缩 进 来 表明 条 件 判断 后 执行 的 代码 块 。 用 缩 进来 标明 成 块 的 代码 是 Python 鲜明 的 特色 。 
如 果 在 条 件 语 句 中 还 嵌 套 着 条 件 判断 , 则 可 采用 elif KEF. elif 的 全 称 为 else if; 

图 B. 4 是 Python 中 条 件 语句 的 示例 。 
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1 def abs(x): 
2 if x>0: 

3 print ("positive") 
4 retum x 

5 else: 

6 print ("negative") 
1 retum -x 


图 B.4 Python 中 条 件 语句 的 示例 


6. 循环 语句 
Python 中 有 两 种 循环 方式 。 第 一 种 循环 是 for 循环 。 图 B. 5 是 利用 for 循环 对 0 一 9 求 
和 的 示例 


1 sm0 
2 foriinrange(10): 
3 sunt-i 


4 print (sum) 


E] B.5 使 用 for 对 0~9 求 和 的 示例 


第 二 种 循环 是 while 循环 。 在 while 循环 中 ,只 要 while 之 后 的 逻辑 表达 式 的 值 为 真 ， 
则 重复 执行 while 循环 体 的 函数 块 。 图 B. 6 是 while 循环 的 示例 。 


1 el 

2 while a« 100: 
3 a*=2 

4 


print (a) 


图 B.6 while 循环 的 示例 


在 for 循环 和 while 循环 中 ,可 以 用 break 语句 跳出 整个 循环 ,用 continue 语句 跳 过 当 
前 一 轮 循环 并 进入 下 一 轮 循环 。 

7. 类 与 对 象 

Python 是 面向 对 象 的 程序 设计 语言 。 所 谓 “ 面 向 对 象 ”, 就 是 将 一 组 数据 以 及 对 数据 的 
操作 封装 在 一 个 类 中 。 在 图 B.7 的 第 1 行 中 用 class 关键 字 声 明了 一 个 类 。 第 2 一 8 行 以 缩 
进 方 示 定 义 了 类 的 结构 。 其 中 ,第 2~4 行 的 函数 是 类 的 构造 函数 ,必须 使 用 函数 名 _ _init__， 
且 可 带 参数 。 构 造 函 数 的 功能 是 定义 类 的 成 员 以 及 成 员 初 始 化 ,第 一 个 参数 必须 是 self. JH 
Ti 4E" self. ”标识 类 的 成 员 。 
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class C: 
def init (self, a, b): 
self.a-a 
self.b-b 


def f(self, x): 
S-self.a* x * self.b 
retum s 


vo 0 -10 0 UNE 


pi 
o 


c-C(Q,3) 
s-c.f(1) 


SE 


print (s) 


图 B.7 定义 和 使 用 类 的 示例 


Python 的 类 可 以 继承 。 如 果 类 D 继承 了 类 C, 则 D. 自动 拥有 C 中 的 公有 成 员 和 成 员 函 数 。 
D 还 可 以 重 写 C 中 的 成 员 函 数 ,使 之 成 为 D 的 特有 实现 ,也 可 以 增加 C 中 没有 的 成 员 函 数 。 


B.2 SciPy 工具 库 


SciPy 是 Python 中 的 数值 计算 工具 库 。 其 中 NumPy、Matplotlib 和 Pandas 是 3 个 与 机 
器 学 习 应 用 的 关系 最 密切 的 工具 包 。 


B.2.1 NumPy 简介 


NumPy 的 全 称 是 Numerical Python ,是 用 Python 进行 科学 计算 时 的 一 个 重要 基础 模 
块 。NumPy 提供 了 一 系列 快速 计算 数组 的 例 程 ,包括 数学 运算 、 人 逻辑 运算 ,形状 操作 排序、 
选择 ,I/O 〇 、 离 散 传 里 叶 变 换 、 基 本 线性 代数 、 基 本 统计 运算 、 随 机 模拟 等 。 

1. 数组 与 矩阵 

NumPy 中 有 3 种 常用 的 数组 生成 函数 : zeros 生成 全 0 数组 ,ones 生成 全 1 数组 ， 
random. rand 生成 随机 数组 。 此 外 ,用 array 函数 可 以 将 普通 的 Python 数组 转化 为 NumPy 
数组 。 图 B. 8 是 上 述 函 数 的 应 用 示例 。 


import numpy as np 


m-3 
X-np.zeros (m) 
Y-np.ones (m) 


Qo o2 


图 B.8 NumPy 数组 函数 的 应 用 示例 
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6 Z-np.randam.rand (m) 
7 R1 2,3, 4] 


8 W-rp.array A) 


图 B.8 (55 


NumPy 数组 也 可 以 看 作 向 量 。 用 NumPy 函数 可 以 实现 NumPy 数组 的 加 法 、 数 乘 与 
内 积 等 向 量 运算 。 图 B. 9 是 NumPy 数组 的 向 量 运算 的 示例 。 


inport numpy as np 


X-rp.array ( 1, 2, 3]) 
Y- rp.array (| 4, 5, €l) 
Z-XeY 

U- X.dot (Y) 

a&-0.5 


o 0 0 0I! PP 


W-a*X 


图 B.9 NumPy 数组 的 向 量 运算 的 示例 
除了 向 量 运 算 外 ,NumPy 还 提供 了 许多 关于 数组 的 统计 函数 ,例如 求 和 (sum)、 求 平均 
[BE (mean) , 求 最 大 值 (max) \ 求 最 大 值 对 应 的 下 标 (argmax) 等 。 图 B. 10 是 NumPy 数组 的 
统计 函数 的 示例 。 


import numpy as np 


X-rp.array ( 2, 3, 1]) 
S-X.sum() 

a X.nean () 

b- X.max () 
i-X.argmax() 


- o0 0c wwR PP 


图 B.10 NumPy 数组 的 统计 函数 的 示例 
通过 指定 形状 shape. NumPy 可 以 直接 生成 一 些 常用 矩阵 。 此 外 ,普通 的 二 维 数组 也 可 
以 通过 array 函数 转化 为 NumPy 数组 。 图 B. 11 是 将 普通 的 二 维 数组 转化 为 NumPy 数组 
的 示例 。 


import numpy as np 


m, F2, 3 


X-np.zeros ( (m, n)) 


图 B.11 将 普通 的 二 维 数组 转化 为 NumPy 数组 的 示例 


a 
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Y-np.ones (m, n)) 
Z-np.randam.rand(m, n) 
Pel 2, 3], 

L4, 5, €]] 


wW np.array (A) 


Co o Oo 0 


图 B.11 (£4 

NumPy PRAT ERKA. WME XE mX n EE, HER 0j m-—1 
以 及 0s p—qsn—1.NumPy KY DAER VA7; Eh X 86928 i TE jl 行 和 第 p 列 到 
第 q—1 列 构成 的 子 矩 阵 ,注意 ,此 处 下 标 从 0 开始 。 图 B. 12 是 NumPy EU Fr AIR f] 


import numpy as np 


X-np.array( [. 1, 2, 3, 4], 
[ 5 6, 7, 8], 
[ 9, 10, 11, 12], 
[13, 14, 15, 16]]) 
d; 3-1; 3 
pais3 


Y-X ij, piq] 


v 0 200 UU nn HP 


图 B.12 NumPy 和 矩阵 切片 
与 普通 数组 的 切片 类 似 , 起 始 下 标 默认 为 0, 终止 下 标 默认 为 最 后 一 个 元 素 的 下 标 。 如 
果 起 始 下 标 与 终止 下 标 都 省 略 , 则 切片 操作 默认 为 取出 所 有 元 素 。 
2. 和 矩阵 变形 
矩阵 变形 的 命令 是 reshape。 它 可 以 在 保持 元 素 个 数 不 变 的 前 提 下 将 一 个 矩阵 变 成 任 
意 形状 的 矩阵 。 图 B. 13 是 NumPy 矩阵 变形 的 示例 。 


import numpy as mp 


X-np.array ( [ 1, 2, 3], 
[4 5, 加 ]) 

Y-X.reshape (1,6) 

Z-X.reshape (3,2) 

W- X.reshape (6,1) 


- o 0 &u0mu- 


图 B.13 NumPy 和 矩阵 变形 的 示例 


图 B. 13 中 ,为 reshape 函数 指定 了 变形 之 后 的 行 数 和 列 数 。 实 际 上 也 可 以 只 指定 变形 
后 矩阵 的 行 数 ,因为 列 数 可 以 由 行 数 推算 出 来 ;类 似 地 ,也 可 以 只 指定 变形 后 矩阵 的 列 数 。 
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在 NumPy 中 向 量 与 矩阵 可 以 相互 转换 。 


3. 矩阵 运算 
在 NumPy 中 通过 推广 内 积 计算 的 dot 函数 来 实现 矩阵 相 乘 的 功能 。 图 B. 14 是 
NumPy 和 矩阵 乘法 的 示例 。 


inport numpy as np 


1 
2 
3 mn, k-3,2,4 

4 X-np.random.rand(m, n) 
5 Y-np.randm.rand(n, k) 
6 Z-X.dot(Y) 


E] B.14 NumPy 矩阵 乘法 的 示例 
可 以 用 X. T 表示 一 个 矩阵 X 的 转 置 。 图 B. 15 是 NumPy 矩阵 转 置 的 示例 。 


import numpy as np 


X-np.randam.rand(m, n) 


1 

2 

3 mr-2,3 
4 

5 Y-X.T 


E] B.15 NumPy 矩阵 转 置 的 示例 


NumPy 线性 代数 库 linalg 中 的 inv 函数 接口 可 用 于 方 阵 求 逆 。 图 B. 16 是 NumPy A8 
阵 求 逆 的 示例 。 


import numpy as np 


m-3 
X-np.randam.rand(m, m) 
Y-np.linalg.inv(X) 


ne WNE 


图 B.16 NumPy 和 矩阵 求 逆 的 示例 


定义 在 实数 域 上 的 任何 函数 都 可 以 拓展 到 和 矩阵 上 。 设 f 为 定义 在 实数 域 上 的 函数 ,XX 
为 mXn EE. 


Xu X12 Tin 

Ta Tz Ton 
X-— s 

Tm Tm Tm 


将 了 作用 到 矩阵 X 上: 
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关于 NumPy 向 量 的 运算 也 都 可 以 拓展 到 NumPy 矩阵 上 。 一 个 矩阵 有 0 和 1 两 个 axis 
值 , 分 别 表示 矩阵 的 两 个 维度 。 通 过 指定 axis 的 值 ,可 以 对 矩阵 的 行 或 列 实施 向 量 运 算 。 


B.2.2 Matplotlib 简介 


Matplotlib 是 SciPy 中 用 于 作 图 的 工具 包 。 散 点 图 与 函数 图 像 是 机 器 学 习 中 最 常用 的 
两 类 制图 方法 。 

首先 介绍 散 点 图 。 散 点 图 十 分 有 利于 数据 的 观察 。 给 定 一 系列 点 坐标 ,Matplotlib 的 
散 点 图 制图 功能 可 以 将 这 些 点 在 平面 上 表示 出 来 。 图 B. 17 是 最 基本 的 散 点 图 制图 程序 。 
第 7 行 中 的 scatter 函数 是 Matplotlib 工具 库 制 作 散 点 图 的 方式 。 在 scatter. 函数 中 需要 两 
个 参数 。 假 设 要 画 m 个 点 , 则 两 个 参数 都 是 长 为 m 的 数组 ,分 别 表示 这 m 个 点 的 横 坐 标 与 
纵 坐 标 。 在 本 例 中 有 mm 二 100 个 点 ,它们 的 横 坐 标 是 X 的 第 一 列 , 纵 坐标 是 X 的 第 二 列 。 第 
7 行 中 制作 的 散 点 图 存储 在 内 存 中 ,第 8 行 中 的 show 函数 将 内 存 中 的 散 点 图 显示 出 来 。 


import numpy as np 
import matplotlib.pyplot as plt 


np.randam.seed (0) 

X- np.randam.rand(100, 2) 
plt.figure (0) 
plt.scatter( :, 0], Xx :, 1]) 
plt.show() 


o 20 0650-0 


图 B.17 绘制 散 点 图 
图 B. 17 中 的 程序 可 得 如 图 B. 18 所 示 的 散 点 图 。 


上 
上 


i 
A 


1.01 . 
0.81 å A 

06] * Ss 
0.44 » 


0.24 . m 
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B. 19 是 绘制 sin x 函数 图 像 的 例子 。 第 7 行 中 用 plot 函数 绘制 


sin x 函数 图 像 。 在 plot 函数 中 需要 两 个 长 度 相同 的 数组 ,分 别 表示 函数 的 输入 值 和 输出 


值 。 指 定 了 这 两 个 参数 后 


,Matplotlib 会 自动 将 这 些 离散 的 值 连接 起 来 ,得 到 函数 图 像 。 


import numpy as np 


X-np.linspace(- 5, 5, 
Y-np.sin(X) 
plt.figure (0) 
pilt.plot(X, Y) 
pilt.show() 


o 005520! PP 


import matplotlib.pyplot as plt 


100) 


图 B.19 绘制 sin z 函数 图 像 


运行 图 B. 19 中 的 程序 可 得 到 如 图 B. 20 所 示 的 函数 图 像 。 


1.00 


0.754 
0.504 
0.254 


B.2.3 Pandas 简 


J 


图 B.20 sinx 函数 图 像 


介 


Pandas 工具 库 是 SciPy 的 数据 读 取 和 处 理工 具 , 是 机 器 学 习 实 践 必 不 可 少 的 工具 包 之 
一 。 它 的 主要 功能 是 读 取 一 个 文件 中 的 数据 ,并 对 数据 进行 观察 与 处 理 。 


Pandas 可 以 读 取 csv 


格式 的 数据 文件 ,相应 的 函数 是 read_csv。Pandas 也 可 以 读 取 带 


分 隔 符 的 数据 文件 ,相应 的 函数 是 read_table。 

Pandas 将 读 取 的 数据 存储 成 DataFrame 结构 。DataFrame 结构 的 内 核 是 一 个 NumPy 
数组 。 可 以 通过 一 个 DataFrame 结构 的 value 成 员 获 取 内 核 数 组 。DataFrame 结构 提供 了 
许多 对 内 核 数 组 进行 操作 的 函数 。 表 B. 1 是 DataFrame 的 常用 函数 。 
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X B.1 DataFrame 的 常用 函数 


BO x 能 [E zx 能 
drop 删除 一 列 corr 计算 相关 性 系数 
dropna 删除 缺失 数据 head 输出 前 n 条 数据 
copy 深度 复制 sample 采样 条 数据 
info 输出 数据 信息 to csv 将 数据 保存 成 csv 文件 
hist 输出 数据 直方 图 plot 作 图 
sort_values 排序 


DataFrame 还 有 许多 其 他 功能 ,具体 可 参见 SciPy 的 相关 文献 。 
B.3 Sklearn 简介 


Sklearn 工具 库 的 全 称 是 Scikitrlearn。 它 是 Google 公司 在 2007 年 开发 的 集成 于 
Python 中 的 机 器 学 习 工 具 库 。 第 一 个 公开 版 本 于 2010 年 1 月 下 旬 发 布 。 除 了 提供 大 量 的 
常用 数据 集 之 外 ,Sklearn 还 通过 定义 统一 的 Python 接口 ,实现 了 一 系列 重要 的 数据 处 理 功 
能 和 机 器 学 习 算法 。 

1. 数据 集 
Sklearn 工具 库 中 包含 许多 简单 实用 的 数据 集 , 表 B. 2 中 是 5 个 例子 。 这 些 数 据 集 的 特 
征 数 都 不 多 , 且 数 据 量 都 不 大 ,可 以 用 作 简 单 的 算法 效果 测试 。 


表 B.2 简单 数据 集 


数 据 集 导入 函数 数 据 集 导入 函数 
波士顿 房价 数据 集 load_boston 乳腺 癌 数 据 集 load_breast_cancer 
高 尾 花 数据 集 load_iris 糖尿 病 数 据 集 load_diabetes 
红酒 数据 集 load_wine 


如 果 需 要 更 大 规模 的 数据 , 则 需要 从 外 部 数据 库 获 取 。Sklearn 还 包括 一 些 获取 数据 集 
的 函数 , 表 B. 3 中 是 3 个 例子 。 


X B.3 获取 外 部 数据 集 的 函数 


数 据 集 获取 数据 集 的 函数 
加 州 房价 数据 集 fetch_california_housing 
人 脸 数据 集 fetch olivetti faces 
政治 家 脸谱 数据 集 fetch_lfw_people 
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以 上 都 是 基于 真实 问题 的 数据 集 。 有 时 为 了 测试 算法 的 效果 ,还 可 以 人 为 制造 具有 特 


殊 结 构 的 数据 集 。Sklearn 也 提供 了 许多 生 


成 数据 集 的 函数 , 表 B.4 中 是 5 个 例子 。 


X B.4 生成 数据 集 的 函数 


数 据 集 生成 函数 
墨 渍 数据 集 make_blobs 
同心 圆 数据 集 make circles 
月 亮 数 据 集 make_moons 
瑞士 卷 数据 集 make_swiss_roll 
S 形 数据 集 make_s_curve 


2. 设计 理念 

Sklearn 工具 库 中 的 各 项 数据 处 理 功 能 
的 。Sklearn 的 设计 理念 是 通过 3 个 基 类 指 

。 Estimator 类 : 提取 并 记录 数据 信息 

。 Transformer 类 : 数据 变换 , 它 提供 


以 及 各 种 算法 实现 都 是 通过 Python 的 类 来 完成 
定 所 有 子 类 统一 的 接口 函数 。 这 3 个 基 类 如 下 ， 
, 它 提 供 fit 接口 函数 。 

transform 接口 函数 。 


* Predictor 类 : 预测 与 输入 数据 相关 的 某 项 指标 , 它 提供 predict 接口 函数 。 
如 果 一 个 子 类 既 继承 了 Estimator, 又 继承 了 Transformer, 则 该 子 类 还 必须 实现 一 个 
fit transform 接口 函数 。 该 函数 的 效果 等 价 于 先 执行 fit 函数 再 执行 transform 函数 。 


3. 数据 处 理 


在 运用 机 器 学 习 算 法 之 前 ,通常 要 先 对 数据 进行 处 理 。Sklearn 中 绝 大 多 数 用 于 数据 处 
理 的 类 继承 Estimator 和 Transformer, 所 以 它们 都 是 通过 实现 fit. transform 函数 来 完成 数 


据 处 理 的 。 
K B. 5 是 Sklearn 中 最 常用 的 4 个 数据 处 理 的 类 。 
RBS 数据 处 理 的 类 

类 名 x) 能 
Imputer 填充 缺失 数据 
OneHotEncoder 向 量化 
MinMaxScaler 特征 限界 
StandardScaler 特征 标准 化 


除了 Sklearn 工具 库 中 提供 类 之 外 .用户 还 可 以 通过 继承 Estimator 和 Transformer 来 


编写 个 性 化 的 数据 处 理 类 。 
训练 数据 与 测试 数据 的 分 离 是 另 一 项 


和 要 功能 。Sklearn 提供 了 train test split 函数 


来 实现 这 一 功能 。 通 过 指定 测试 数据 的 比例 ,train_test_split 将 给 定数 据 随机 地 分 成 训练 
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与 测试 两 部 分 。 


4. 机 器 学 习 算法 
Sklearn 提供 了 相当 全 面 的 机 器 学 习 基 本 算法 , 既 包括 监督 式 学 习 算 法 ,也 包括 无 监督 
学 习 算法 。 
x B.6 是 常用 的 监督 式 学 习 算 法 类 。 
Eno 常用 的 监督 式 学 习 算法 


算 法 类 名 算 法 类 名 
线性 回归 LinearRegression 支持 向 量 机 SVM 
岭 回归 Ridge 决策 树 DecisionTree 
Lasso 回归 Lasso 随机 森林 RandomForest 
Logistic 回归 LogisticRegression 


X B.7 是 常用 的 无 监督 学 习 算法 。 
表 B.7 常用 的 无 监督 学 习 算 法 


算 法 类 名 算 法 类 名 
主 成 分 分 析 法 PCA & 均 值 算 法 KMeans 
线性 判别 分 析 法 LDA 合并 聚 类 算法 AggomerativeClustering 
局 部 线性 嵌入 法 LLE DBSCAN 算法 DBSCAN 
多 维 缩放 算法 MDS 


这 些 算法 类 都 继承 Estimator 和 Predictor。 它 们 都 通过 fit 函数 来 训练 模型 , 且 通 过 
predict 函数 来 测试 模型 。 为 了 深化 读者 对 这 些 算 法 的 理解 ,本 书 中 实现 了 这 些 算法 ,而 且 采 
用 了 与 Sklearn 一 致 的 接口 函数 fit 5j predict, 
除了 实现 算法 之 外 ,Sklearn 工具 库 中 还 实现 了 算法 度量 的 函数 。 针 对 回归 问题 ， 
Sklearn 实现 了 均 方 误差 函数 mean_squared_error 和 决定 系数 函数 r2_score。 针 对 分 类 问 
题 ,Sklearn 实现 了 准确 率 函 数 accuracy, score, PR Cf fj E. precision_score 和 召回 率 函 数 


recall score, 


5. Sklearn 工具 库 应 用 实例 

图 B. 21 是 运用 Sklearn 工具 库 中 的 各 项 功能 解决 房价 预测 问题 的 完整 程序 。 第 1 一 6 
行 导 和 工具 库 中 相关 的 类 和 函数 。 第 8 一 11 行 的 process feature 函数 用 于 处 理 数据 。 第 
13—18 行 读 取 数 据 库 中 的 数据 ,将 数据 分 成 训练 与 测试 两 部 分 ,并 分 别 进行 数据 处 理 。 第 
20.21 行 用 线性 回归 算法 训练 模型 。 第 22 行 用 训练 好 的 模型 对 测试 数据 进行 预测 。 第 
23 一 25 行 度量 模型 在 测试 数据 上 的 效果 。 
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fram sklearn.datasets import fetch california housing 
fram skleam .model selection import train test split 
fram sklearn.preprocessing import StandardScaler 

fram sklearn.linear model import LinearRegression 
from sklearn.metrics import mean squared error 

fram skleamn.metrics import r2 score 


def process features (X) : 
Scaler- StandardScaler () 
X-scaler.fit transform(X) 
retum X 


cO 0-00 UU lNnBco 


URES 


housing- fetch califomia housing () 

14 X-housing.data 

15 y -housing.target 

16 X train, X test, y train, y test -train test split(X, y, test size-0.2, randum state- 0) 
17 X train-process features(X train) 

18 X test-process features(X test) 


0 model- LinearRegression|() 

1 model.fit(X train, y train) 

22 y pred-model.predict(X test) 

23 mse-mean squared error(y test, y pred) 
24 r2-12 score(y test, y pred) 

25 print("mse- (); r2 = ()".format (mse, r2)) 


图 B.21 解决 房价 预测 问题 的 完整 程序 
图 B. 21 展示 了 运用 Sklearn 工具 库 的 一 般 流程 ,求解 其 他 问题 可 以 “ 依 葫芦 画 际 ”。 


B.4 TensorFlow 简介 


TensorFlow 是 Google 公司 在 2017 年 2 月 发 布 的 机 器 学 习 开 源 软件 库 。 它 支持 多 服 
务 器 分 布 式 计算 .GPU 加 速 以 及 多 操作 系统 (包括 移动 计算 平台 Android 和 iOS) ,而 且 集 成 
于 Python 和 C++ 等 常用 编程 语言 的 标准 库 中 。 这 个 名 称 源 于 其 运行 原理 。Tensor( 张 量 ) 
意味 着 nn 维 数组 。Flow( 流 ) 意 味 着 基于 数据 流 图 的 计算 。TensorFlow 意 为 张 量 从 数据 流 
图 的 一 端 流动 到 另 一 端的 计算 过 程 。TensorFlow 是 将 复杂 的 数据 结构 传输 至 人 工 智 能 
经 网 中 进行 分 析 和 处 理 的 系统 。 

计算 图 是 TensorFlow 中 最 基本 的 概念 。 例 如 ,如 图 B. 22 所 示 , 有 3 个 带 初 始 值 的 变量 
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节点 a=1,b=2,d=4 以 及 两 个 操作 节点 十 和 X。 将 ab 输入 十 节点 得 到 变量 ,变量 c 再 
与 变量 d 一 起 输入 X 节 点 得 到 变量 e 


e el 
c d-4 e-3 d-4 
: 
A A 
a-l b-2 a-l b-2 


图 B.22 计算 图 与 其 运行 结果 


图 B. 22(a) 的 计算 图 并 不 计算 变量 c 和 < 的 值 。 为 了 计算 它们 的 值 ,必须 运行 这 个 计算 
图 。 将 计算 图 的 构造 和 运行 分 开 正 是 TensorFlow 的 独特 设计 。 图 B. 22(b) 是 运行 计算 图 
的 结果 。 

图 B. 23 的 TensorFlow 程序 实现 的 是 图 B. 22 中 计算 图 的 构建 与 运行 。 第 3 一 7 行 构建 
计算 图 。 第 9 一 11 行 运行 计算 图 。 第 9 行 的 语句 是 TensorFlow 开始 运行 计算 图 的 标识 。 


运 


import tensorflow as tf 


a-tf.Variable (1) 
b- tf.Variable (2) 
c=a+b 

d- tf.Variable (4) 


e-c*d 


o 0 2 00 UMP 


with tf.Session() as sess: 
10 tf.global variables initializer().run() 


11 sess.run(e) 


图 B.23 TensorFlow 构建 并 运行 计算 图 


一 些 计算 图 中 需要 的 变量 的 值 可 以 在 运行 计算 图 时 提供 。TensorFlow 中 用 
placeholder 型 变量 表示 这 样 的 变量 。 图 B. 24 是 一 个 placeholder 型 变量 的 例子 。 第 4 行 中 
的 变量 b 就 是 一 个 placeholder 型 的 变量 。 第 11 行 在 运行 计算 图 时 通过 feed_dict 对 其 赋值 
2。 运 行 图 B. 24 中 的 程序 ,得 到 与 图 B. 23 中 的 程序 完全 一 致 的 结果 。 
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import tensorflow as tf 


a-tf.Variable(1) 
b-tf.placeholder(dtype- tf.int32, shape- None) 
c-a*b 

d-t£.Variable (4) 


e-c*d 


0o 0-0 0 Q0 Nnuc 


with tf.Session() as sess: 
10 tf.gldbal variables initializer().run() 
1l print(sess.run(e, feed dict- (b: 2])) 


图 B.24 placeholder 型 变量 的 例子 


TensorFlow 用 张 量 来 统一 表示 变量 和 数组 。 在 图 B. 23 的 程序 中 ,a、b、c、d\e 实际 上 都 
是 0 维 张 量 , 也 称 为 标量 。 向 量 是 一 维 张 量 ,矩阵 是 二 维 张 量 。 图 B. 25 是 二 维 张 量 的 例子 。 


import tensorflow as tf 


2 t£ Variable ( [ 1, 2], [ 3, 4]]) 
B-tf.Variable( [ 5, 6], 7, 81]) 
C- tf .matmil (A, B) 


with tf.Session() as sess: 
tf.global variables initializer().run() 
print (sess.run(C)) 


o 0-0 050 nM HP 


图 B.25 TensorFlow 中 的 二 维 张 量 的 例子 
训练 神经 网 络 模 型 是 TensorFlow 最 重要 的 功能 。 图 B. 26 是 运用 TensorFlow 来 构建 
与 训练 神经 网 络 模型 的 例子 。 第 4 一 8 行 实现 了 一 个 生成 回归 问题 训练 数据 的 函数 。 第 
10—21 行 是 计算 图 的 构建 部 分 。 第 23 一 30 行 是 计算 图 的 运行 部 分 。 


inport numpy as np 
import tensorflow as tf 


def generate samples (m): 
X-2* (np.randam.rand(m, 2)- 0.5) 
w-np.array ( 1,2]) .reshape (- 1,1) 
y-X.dot (w)+ 1 + np.randam.nommal(0, 0.1, (m,1)) 
retum X,y 


co -1 O» OQ d wmwN PP 


图 B.26 用 TensorFlow 构建 与 训练 神经 网 络 模型 的 例子 
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9 

10 n features-2 

11 n hiddenl- 300 

12 n hidden2-100 

13 n outputs- 1 

14 X-tf.placeholder(tf.float32, shape- (None, n features)) 

15 y-tf.placeholder(tf.float32, shape- (None)) 

16 hiddenl-tf.layers.dense(X, n hiddenl, activation- tf.nn.relu) 

17 hidden2-tf.layers.dense (hiddenl, n hidder2, activation- tf.nn.relu) 
18 outputs- tf.layers.dense (hidden2, n outputs) 

19 mse- tf.reduce mean (tf.square (outputs - y)) 

20 optimizer-tf.train.GradientDescentOptimizer (learning rate- 0.01) 
21 training op- optimizer.minimize (mse) 


23 with tf.Session() as sess: 

24 tf.global variables initializer().run() 

25 X train, y train-generate samples (100) 

26 for epoch in range (3000) : 

27 sess.run (training op, feed dict- (X: X train, y: y train]) 
28 X test, y test-generate samples (100) 

29 MSE- sess.run(mse, feed dict- (X: X test, y: y test]) 

30 print ("mse = ()".format (MSE) ) 


图 B.26 ($5 


在 图 B. 26 的 第 14.15 行 分 别 声 明 表示 特征 与 标签 的 张 量 X 和 y。 第 16,17 行 分 别 声 
明 两 个 隐藏 层 。 第 18 行 声明 输出 层 。 第 19 行 定 义 均 方 误差 目标 函数 。 第 20 行 声明 随机 
梯度 下 降 算 子 。 第 21 行 定义 均 方 误差 最 小 化 操作 。 随 后 是 计算 图 的 运行 部 分 。 第 25 行 生 
成 100 条 训练 数据 。 第 26、27 行进 行 3000 轮 随机 梯度 下 降 循环 。 第 28 行 生成 测试 数据 。 
第 29 行进 行 模型 测试 。 以 上 就 是 TensorFlow 训练 神经 网 络 模型 的 基本 流程 。 
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附录 C 本 书 使 用 的 数据 集 


Bike Sharing Demand, Hadi Fanaee and Joao Gama, 2013, Event labeling combining ensemble 
detectors and background knowledge. Progress in Artificial Intelligence pp. 1-15. Springer Berlin 
Heidelberg. availabvle from Kaggle website https://www. kaggle. com/c/bike-sharing-demand. 
Gender Recognition byVioce. Kory Becker. available from Kaggle website: https://www. kaggle. 
com/primaryobjects/voicegender. 

Adult Data Set. Ronny Kohavi and Barry Becker. 1996. Data Mining and Visualization. Silicon 
Graphics. available from UCI Machine Learning Repository: http: //archive. ics. uci. edu/ml/datasets/ 
Adult. 

Dogs vs. Cats.Jeremy Elson. John R. Douceur, Jon Howell. Jared Saul. Asirra: A CAPTCHA that 
Exploits Interest-Aligned Manual Image Categorization, in Proceedings of 14th ACM Conference on 
Computer and Communications Security (CCS). Association for Computing Machinery. Inc. . Oct. 
2007. available from Kaggle website: https://www. kaggle. com/c/dogs-vs-cats. 

The Dataset of Flower Images. Olga Belitskaya. 2017. available from Kaggle website; https://www. 
kaggle. com/olgabelitskaya/the-dataset-of-flower-images/data. 

Beijing PM2.5 Data Set. Song Xichen. 2017. available from UCI Machine Learning Repository: 
https: //archive. ics. uci. edu/ml/datasets/Beijing-- PM2. 5+ Data. 

Yale Face Database. Athinodoros Georghiades et al. . 2002. Center for computational Vision and Control at 
Yale University, available from http: / /cvc. cs. yale. edu/cvc/projects/ yalefaces/ yalefaces. html. 
Fashion-MNIST dataset. Han Xiao. Kashif Rasul. Roland Vollgraf. 2017. Fashion-MNIST: a Novel 
Image Dataset for Benchmarking Machine Learning Algorithms. available from Kaggle website: 


https://www. kaggle. com/zalando-research/fashionmnist/home. 
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